3

Фон

Я недавно купил Asus ZenBook Pro. Я использую его для локального тестирования экспериментов по глубокому обучению. Эти эксперименты часто достаточно интенсивны как для процессора, так и для графического процессора. Недавно я испытал огромное падение производительности при выполнении тяжелых вычислений.

У меня установлена Ubuntu 16.04.

проблема

Проблема возникает, когда я, например, планирую учебную работу с использованием TensorFlow, Keras или выполняю тяжелую работу с CPU и GPU в ROS или Python. Примерно через 30-60 секунд ожидаемой производительности (т.е. хорошей и высокой производительности) производительность внезапно умирает, и весь компьютер становится почти не отвечающим. Полная перезагрузка необходима для восстановления функциональности.

Используя top , nvidia-smi или системный монитор, я не вижу резкого всплеска использования процессорами или памятью каких-либо процессоров. Никакие другие процессы не начинают использовать процессор или графический процессор.

В состоянии отсутствия ответа я также не вижу процессоров, использующих сколько-нибудь заметное количество вычислительной мощности.

Я подозреваю, что проблема связана с управлением питанием в Ubuntu, поскольку мой поклонник также время от времени работает неуправляемо, но я не эксперт по Linux. Однако, когда я установил Ubuntu, я должен был выполнить начальную загрузку с acpi=off если это поможет.

РЕДАКТИРОВАТЬ: я тестировал тот же код на других компьютерах с установленной Ubuntu 16.04 и не вижу здесь никаких проблем.

Я ценю любую помощь в поиске проблемы или в том, чтобы направить меня туда, где я могу исследовать себя.

3 ответа3

3

Возможно проблема с драйвером nvidia, вы установили его из.RUN, загружаемый через веб-сайт nvidia или Ubuntu, предоставленный? Должен быть доступен через диспетчер устройств, легко найти руководство по установке драйвера, погуглив его.

Мое личное предложение - использовать проприетарный драйвер nvidia из репозитория дистрибутива linux, потому что nouveau с открытым исходным кодом работает нормально, но когда это необходимо, производительность (и ваш случай) nouveau не лучшее решение. Также загрузка с сайта manufacter в этом случае не является лучшим решением, потому что они пишут универсальный драйвер linux, который, несомненно, может дать вам больше производительности, но и больше ошибок. Еще одно предложение, которое я могу вам дать, это протестировать другую версию драйвера.

1

Ваш процессор может сильно нагреваться. Учитывая, что ваша система перестает отвечать на запросы, вам нужно настроить способ мониторинга и записи на диск температуры, тактовой частоты и других параметров, поэтому после перезагрузки вы получите посмертную информацию.

Вы можете использовать скрипт, как показано ниже, который будет проверять скорость вращения вентиляторов, различные температуры и тактовую частоту процессора. Это, вероятно, даст вам достаточно информации, чтобы выяснить (или намекнуть), что происходит. Все остальное, скорее всего, будет выстрелом в темноте (что не означает, что они не будут попадать в цель).

Более красивое форматирование вывода можно получить с помощью sed , grep и / или awk , есть несколько примеров (см. Ниже). Есть и другая информация, которую вы можете собрать (см. Ниже), но я думаю, этого будет достаточно.

Надеемся, что это поможет вам найти проблему (ваш вопрос!)... теперь, что касается решения, это стоит другого вопроса.


Скрипт для мониторинга различных параметров.
#!/bin/bash

echo -n "" > monitor.log
while true ; do
    echo "$(date +"%H:%M:%S")" >> monitor.log
    sensors | sed 's/^/    /' >> monitor.log
    cat /proc/cpuinfo | grep '\(processor\)\|\(cpu\ MHz\)' | sed 's/^/    /' >> monitor.log
    echo "" >> monitor.log
    # Write output every 2 seconds
    sleep 2
done


Ссылки о том, как форматировать вывод с датчиков и т.д.

https://unix.stackexchange.com/questions/79060/personalize-sensors-output-and-save-it-to-file


Ссылки на другие части информации.

https://askubuntu.com/questions/450045/show-cpu-usage-using-a-command

1

Ноутбук может сильно нагреваться, если у него недостаточно охлаждения. Ваш процессор - это современный Intel I7, и большинство современных (дорогостоящих) процессоров класса high-end автоматически снижают тактовую частоту, когда они становятся слишком горячими, чтобы избежать падения и не всегда возвращаются к нормальной скорости.

Эта теория подтверждается тем фактом, что проблема возникает только тогда, когда компьютер находится под большой нагрузкой. Это может быть проблема процессора, графического процессора или обоих.

Я предлагаю добавить некоторые показатели температуры процессора и графического процессора, чтобы вы могли наглядно увидеть их эволюцию. Следующее может помочь:

Если проблема действительно в перегреве, вы можете предпринять следующие шаги:

  • Охлаждающая подставка может улучшить ситуацию
  • Убедитесь, что все воздушные каналы чистые
  • Если ваша среда пыльная, очистка салона может помочь
  • Если компьютер все еще находится на гарантии, используйте его
  • Если это не на гарантии, термопасту процессора может потребовать замены
  • Вентилятор (ы) может быть неисправен

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .