1

Я пытаюсь углубиться в изучение моего графического процессора GeForce GTX 980 Ti. У меня есть блок питания мощностью 658 Вт, но когда я запускаю TensorFlow, я получаю следующую ошибку в dmesg:

[  158.598263] ata2: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
[  158.598268] ata2: irq_stat 0x00400040, connection status changed
[  158.598271] ata2: SError: { HostInt PHYRdyChg 10B8B DevExch }
[  158.598277] ata2: hard resetting link
[  159.602605] NVRM: GPU at PCI:0000:01:00: GPU-e29ec6c5-5146-95c4-f09c-68b96546640b
[  159.602609] NVRM: Xid (PCI:0000:01:00): 79, GPU has fallen off the bus.

[  159.602613] NVRM: GPU at 0000:01:00.0 has fallen off the bus.
[  159.602623] NVRM: A GPU crash dump has been created. If possible, please run
               NVRM: nvidia-bug-report.sh as root to collect this data before
               NVRM: the NVIDIA kernel module is unloaded.
[  164.230199] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[  164.237244] ata2.00: configured for UDMA/133
[  164.237248] ata2: EH complete

Это похоже на небольшой скачок напряжения, который сбивает мой жесткий диск и графическую карту. Поэтому мне интересно, может быть, я мог бы медленно наращивать свой графический процессор, чтобы он начал использовать все больше и больше энергии медленнее, чтобы он не создавал этот скачок?

Я использую Ubuntu 16.04.1 с ядром 4.8.0-34, с версией ядра nvidia 375.26.

nvidia-smi 
Tue Feb  7 15:02:47 2017       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 375.26                 Driver Version: 375.26                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 980 Ti  Off  | 0000:01:00.0     Off |                  N/A |
|  0%   42C    P0    56W / 275W |      0MiB /  6077MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID  Type  Process name                               Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

Я попытался подключить графический процессор к собственному источнику питания (более старый 750 Вт, который я не могу использовать непосредственно на этой материнской плате), но происходит нечто подобное:

[   81.865432] NVRM: GPU at PCI:0000:01:00: GPU-e29ec6c5-5146-95c4-f09c-68b96546640b
[   81.865437] NVRM: Xid (PCI:0000:01:00): 79, GPU has fallen off the bus.

[   81.865474] NVRM: GPU at 0000:01:00.0 has fallen off the bus.
[   81.865484] NVRM: A GPU crash dump has been created. If possible, please run
               NVRM: nvidia-bug-report.sh as root to collect this data before
               NVRM: the NVIDIA kernel module is unloaded.

И дополнительный источник питания отключается. Кажется, им действительно не нравится, когда активируется GPU.

0