1

Я обновил драйверы nvidia этим утром, предыдущая версия была 375.26 которая является последней, работающей на моей машине.

Теперь, когда я nvidia-smi он просто зависает до бесконечности, и если я запускаю код tensorflow он выдает

E tensorflow/stream_executor/cuda/cuda_driver.cc:509] failed call to cuInit: CUDA_ERROR_UNKNOWN

в то время как если я запускаю глупую программу cuda, скомпилированную с nvcc она просто идет.

Когда я dpkg -l | grep nvidia , у меня есть:

ii  nvidia-375                            375.51-0ubuntu1                            amd64        NVIDIA binary driver - version 375.51
ii  nvidia-375-dev                        375.51-0ubuntu1                            amd64        NVIDIA binary Xorg driver development files
ii  nvidia-modprobe                       375.51-0ubuntu1                            amd64        Load the NVIDIA kernel driver and create device files
ii  nvidia-opencl-icd-375                 375.51-0ubuntu1                            amd64        NVIDIA OpenCL ICD
ii  nvidia-prime                          0.8.2                                      amd64        Tools to enable NVIDIA's Prime
ii  nvidia-settings                       375.51-0ubuntu1                            amd64        Tool for configuring the NVIDIA graphics driver

Кто-нибудь еще сталкивается с этим? Я нашел это, например, но не удалось.

РЕДАКТИРОВАТЬ

Я нахожусь на экземпляре Azure, это важно, смотрите ответ.

1 ответ1

0

Это исправляет это. Это была проблема, связанная с ядром Ubuntu 16.04 4.4.0-75, как выяснилось из ответа Microsoft на запрос в службу поддержки:

Похоже, что Canonical недавно выпустила ядро 4.4.0-75 для Ubuntu 16.04, и это отрицательно сказывается на графических процессорах Tesla на виртуальных машинах серии NC. Установка 4.4.0-75 ломает версию 8.0.61-1 драйвера NVIDIA CUDA, который в настоящее время рекомендуется для использования в этих системах, в результате чего nvidia-smi не показывает адаптеры, а lspci возвращает ошибку, похожую на следующую:

root@pd-nvtest2:~# lspci lspci: Cannot open /sys/bus/pci/devices/2baf:00:00.0/resource: No such file or directory

apt-get remove linux-image-4.4.0-75-generic - это также установит новую версию ядра - и затем update-grub .

Затем перезагрузитесь и все заработает!

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .