Я использую глубокое обучение в своих исследованиях, и я добавил в компьютер второе 1080ti, потому что использование только одного не позволило бы мне закончить свои эксперименты вовремя. Tensorflow будет использовать почти 100% GPU и немного CPU.

Проблема: если я запустил тензор потока с обоими графическими процессорами, система выключится примерно через 30 секунд и не будет POST. Я должен удалить первый графический процессор, чтобы снова включить питание (после этого я могу снова добавить первый графический процессор).

Спецификация ПК:

  • 1x молчи! Dark Power Pro 11 750 Вт ATX 2.4 (BN252)
  • 1x ASUS Prime X370-Pro (90MB0TD0-M0EAY0)
  • 1x AMD Ryzen 5 1600 (TDP: 65 Вт), 6x 3,20 ГГц, в штучной упаковке (YD1600BBAEBOX)
  • 2 x MSI GeForce GTX 1080 Ti (250 Вт) Gaming X 11G, 11 ГБ GDDR5X, DVI, 2x HDMI, 2x DP (V360-001R)
  • 1x Samsung SSD 850 EVO 250 ГБ, SATA (MZ-75E250B)
  • 3x Seagate IronWolf NAS HDD 10 ТБ, SATA 6 Гбит / с (ST10000VN0004)
  • 1 комплект G.Skill Aegis DIMM 16 ГБ, DDR4-3000, CL16-18-18-38 (F4-3000C16D-16GISB)

Я использую PCIEX16_1 и PCIEX16_2 для графических процессоров.

Что я пробовал до сих пор:

  • Запуск тензорного потока с каждым из графических процессоров (100% использования графического процессора) -> ОК для обоих графических процессоров
  • Проверка температуры обоих графических процессоров при параллельном использовании графических процессоров: -> OK max temp <80 ° C
  • Дважды проверил, что ничего не разлочено -> ОК

Может кто-нибудь, пожалуйста, проведите меня через следующие шаги, чтобы выяснить проблему?

Спасибо за вашу помощь.

1 ответ1

1

Завершение работы компьютера без предупреждения может происходить по многим причинам, но есть две общие проблемы:

  1. Перегрев что-то. Как правило, это вызывает #PROCHOT или аналогичный и полное мгновенное отключение питания.
  2. Тяга к большой мощности и запуск безопасности в БП.

Вы описываете ситуацию, в которой вы используете максимальную мощность на двух очень голодных видеокартах, что заставляет меня подозревать вторую проблему.

Посмотрите на свою видеокарту, они потребляют до 250 Вт каждая. Теоретическая мощность 75 Вт может быть предоставлена материнской платой PCI-e. Если карте требуется больше энергии, она может добавить 6-контактный разъем и потреблять до 75 Вт от этого, или 8-контактный разъем и потреблять до 150 Ватт от него.

Ваша карта использует два 8-контактных разъема и, вероятно, потребляет большую часть энергии от них.
(Рисовать из МБ не очень рекомендуется, если только вы не хотите нагревать это. Если выбор для разъема питания PCI-e, который является предпочтительным выбором).

Как у вас две карты и всего 4 8-контактных разъема. Таким образом, теоретически вам необходимо:* 4x 150 Вт выходной мощности откуда-либо, или * 2x 300 Вт выходной мощности и разветвитель от выводов до 2x8 выводов * Или аналогичная установка, где два 6 вывода как-то объединяются для подачи на 1 вывод.

Теперь ваш блок питания отличный. У него не менее четырех таких штекеров. Так что в теории у вас все хорошо.

но...
Не гарантируется возможность подачи 600 Вт на одну из этих вилок. Таким образом, вы не можете использовать один разъем питания PCI-e на модульном блоке питания и разделить его на четыре.

Если вам не хватает правильных кабелей и вытащите из меньшего количества разъемов на блоке питания, вы можете перегрузить один из этих разъемов. Это может привести к необычным искрам или к хорошему источнику питания, защите от перегрузки по току и мгновенному отключению.

Последнее, скорее всего, произошло на вашем компьютере.


Это становится более сложным, потому что у вашего блока питания есть кнопка для балансировки между разными рельсами. Я оставлю эту часть вне ответа, так как она удвоит или утроит размер.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .