Я использую 4 интенсивных приложения (обучение моделей машинного обучения на графических процессорах), которые регулярно выводят информацию о том, насколько быстро они работают на компьютере с Linux 14.04. Как ни странно, сервер замедлялся примерно на 2,5 часа, при этом эти приложения работали в 3 раза медленнее, чем обычно. Не было никаких изменений в сервере или приложениях до / во время / после того, как это произошло, о чем я знаю. Я испытывал нечто подобное раньше на том же сервере, но я не стал исследовать это дальше.
Запуск htop
и iotop
во время остановки не выявил никаких намеков, так как загрузка ЦП была низкой, при этом почти 6/12 ядер почти полностью не использовались, использование памяти было низким (использовалось 16/64 ГБ), а активность ввода-вывода была низкой. Каждый из 4 графических процессоров сервера имеет 95% памяти, выделенной для одного экземпляра этих интенсивных приложений. Это не меняется во время работы приложений. Приложения выполняют идентичные операции снова и снова (умножение матриц), поэтому замедление не должно быть связано с какой-либо активностью, вызванной приложениями.
Как я могу определить, что послужило причиной этой остановки моих приложений?