Я создал Data Science Virtual Machine for Linux (Ubuntu) в Azure и хочу проверить установку графических процессоров, следуя этим инструкциям TensorFlow. Первая команда показывает, что GPU доступен с Tesla M60:

$ lspci | grep -i nvidia
db4d:00:00.0 VGA compatible controller: NVIDIA Corporation GM204GL [Tesla M60] (rev a1)

Вторая команда терпит неудачу с загадочным сообщением:

$ sudo docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi
docker: Error response from daemon: OCI runtime create failed: container_linux.go:348: starting container process caused "process_linux.go:402: container init caused \"process_linux.go:385: running prestart hook 1 caused \\\"error running hook: exit status 1, stdout: , stderr: exec command: [/usr/bin/nvidia-container-cli --load-kmods configure --ldconfig=@/sbin/ldconfig.real --device=all --compute --utility --require=cuda>=10.0 brand=tesla,driver>=384,driver<385 --pid=31149 /data/docker/overlay2/16e2b65fa0831681029432e3936005fa2796afd6d5a50c297d6bc0693e57a0b0/merged]\\\\nnvidia-container-cli: requirement error: unsatisfied condition: driver < 385\\\\n\\\"\"": unknown.

Как настроить компьютер для запуска образа док-станции Nvidia?

1 ответ1

0

Это проблема NVIDIA GitHub и эта часть сообщения об ошибке:

--require=cuda>=10.0 brand=tesla,driver>=384,driver<385

предположить, что это проблема водителя. Я не совсем понимаю, почему.

Решение с использованием Docker, но без вашего имиджа

Самое простое решение - использовать разные образы Azure: как NVIDIA GPU Cloud Image и NVIDIA GPU Cloud Image for Deep Learning and HPC запустит этот образ Docker.

Решение с использованием вашего изображения, но без Docker

В качестве альтернативы вы все еще можете использовать Data Science Virtual Machine for Linux (Ubuntu) но без контейнеризации Docker. Например, Conda может настроить среду (в которой начальное yes | отвечает yes на запросы установки пакетов):

yes | conda create -n TF python=2.7 scipy==1.0.0 tensorflow-gpu==1.8 Keras==2.1.3 pandas==0.22.0 numpy==1.14.0 matplotlib scikit-learn
export PATH=$PATH:/data/anaconda/envs/TF/bin
export PATH=$PATH:/data/anaconda/envs/py35/bin

Эти команды извлекают официальные модели из Tensorflow:

git clone https://github.com/tensorflow/models.git
export PYTHONPATH="$PYTHONPATH:./models"

Первый вызов nvidia-smi показывает, что в GPU нет запущенных процессов:

$ nvidia-smi
Mon Jan 21 16:26:02 2019       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 396.44                 Driver Version: 396.44                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla M60           On   | 0000DB4D:00:00.0 Off |                  Off |
| N/A   39C    P8    14W / 150W |      0MiB /  8129MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

Если вы на некоторое время оставите официальную модель MNIST в фоновом режиме, вы увидите один процесс, использующий графический процессор:

$ python models/official/mnist/mnist.py &
[1] 25967
$ nvidia-smi
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 396.44                 Driver Version: 396.44                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla M60           On   | 0000DB4D:00:00.0 Off |                  Off |
| N/A   37C    P0    77W / 150W |   7851MiB /  8129MiB |     93%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0     26077      C   python                                      7840MiB |
+-----------------------------------------------------------------------------+

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .