У меня есть открытый вопрос для вас:
Я установил в своем офисе подержанный сервер для обучения наших моделей ML; он содержит 4 Xeon E7 4820 (https://ark.intel.com/products/53675/Intel-Xeon-Processor-E7-4820-18M-Cache-2_00-GHz-5_86-GTs-Intel-QPI) - 2, 00 ГГц, 8 ядер, 16 потоков каждый - 128 ГБ ОЗУ и 128 ГБ SWAP (SSD Swap).
Тем не менее, я сделал свой первый тест обучения на нем, и очень удивительно, что это было удивительно ... медленно. 11 минут на тренировку, когда на моем 8-м процессоре i5 (1,6 ГГц, 4 ядра, 8 потоков) с 8 ГБ ОЗУ и 8 ГБ подкачки требуется 5 минут.
Htop говорит мне, что параллельные вычисления включены, и пики нагрузки на процессор составляют около 3 для i5 и 22 для 4 E7; так у вас есть идея, почему существует такой разрыв производительности? Я знаю, что закон Мура - непреодолимое явление, но для 1-летнего процессора среднего класса, который превосходит 4-летний семилетний Xeon E7, я не могу обернуть голову вокруг этого. Надеюсь, вы можете помочь! :)
PS: Я уже установил Cuda и CuDNN на него, но он еще не работает, и я провел обучение только с использованием процессора. Я был настолько озадачен результатами, что перестал работать над ускорением графического процессора (у нас на сервере установлено небольшое 1050 Ti, которое я установил), чтобы решить эту проблему. Я убедился, что на обоих компьютерах работает одинаковый код.
Заранее спасибо ! :)
иней