У меня есть 2 машины, которые одинаково аппаратно. На них у меня есть 1 Debian и 1 пользовательская сборка с образом Linux для buildroot.

Проблема, с которой я сталкиваюсь, заключается в следующем:

Для моего приложения производительность машины Debian примерно в два раза выше, чем у компьютера с пользовательским образом сборки.

Я пытаюсь понять, что может вызвать эту разницу.

Версия cuda 7.5
Версии драйвера:
Debian: 361,28
Таможня: 367,27

Некоторая информация, которая может иметь отношение к теме:
Если я запускаю deviceQuery (из примеров cuda) на обеих машинах, результаты почти, но не совсем совпадают:
1-я разница в строке:
Это для Debian:
Общий объем глобальной памяти: 3069 МБ
И это для Custom:
Общий объем глобальной памяти: 3008 МБ
(Хотя я сомневаюсь, что эта разница может вызвать упомянутую разницу в производительности.)
Другое отличие:
Debian:
Ограничение времени выполнения на ядрах: Да
Таможня:
Ограничение времени выполнения на ядрах: нет

(В обеих системах есть X-сервер, но в Custom это - обычный X с twm)

Если я запускаю тестирование пропускной способности из образцов, результаты более / менее одинаковы для пропускной способности хост-устройства, 1 пропускной способности устройства и пропускной способности устройства-хоста, 1 устройства, но могут значительно отличаться для пропускной способности устройства-устройства, 1 устройство (ы)
Таким образом, для последней записи значения в Debian находятся в районе 100 КБ / с (хотя иногда они уменьшаются до 63 КБ)
Для Кастомных это последовательно на уровне 63к.

Я был бы рад, если бы вы могли помочь мне советом о том, что я должен продолжить расследование и в чем может быть проблема.
Спасибо!

UPD: Я пытался запустить X-сервер в пользовательской системе, используя для этого nvidia. (запуск X с Intel не оказывает заметного влияния на perf). Это не полностью запускается, но и не падает.
Интересный факт - если я запускаю свое приложение, когда X находится в этом полузапущенном состоянии - производительность падает еще больше (более чем в 4 раза меньше, чем в Debian)

Upd2: я только что попробовал обновить CUDA 8 на пользовательской машине - не изменил описанную ситуацию.

Upd3:http://cuda-z.sourceforge.net/ Показывает 2- кратное или большее сокращение производительности в пользовательской системе для каждого типа операций, которые она может измерить. (А также почти в 2 раза на копии устройства на устройство)

1 ответ1

0

Хорошо, что в итоге помогло обновить способ установки драйвера nvidia, чтобы получить полный набор утилит nvidia (изменение по умолчанию buildroot nvidia mk). И запуск приложения после запуска X-сервера. Хотя это остается тем же: ограничение времени выполнения для ядер: нет

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .