Это проблема NVIDIA GitHub и эта часть сообщения об ошибке:
--require=cuda>=10.0 brand=tesla,driver>=384,driver<385
предположить, что это проблема водителя. Я не совсем понимаю, почему.
Решение с использованием Docker, но без вашего имиджа
Самое простое решение - использовать разные образы Azure: как NVIDIA GPU Cloud Image
и NVIDIA GPU Cloud Image for Deep Learning and HPC
запустит этот образ Docker.
Решение с использованием вашего изображения, но без Docker
В качестве альтернативы вы все еще можете использовать Data Science Virtual Machine for Linux (Ubuntu)
но без контейнеризации Docker. Например, Conda может настроить среду (в которой начальное yes |
отвечает yes на запросы установки пакетов):
yes | conda create -n TF python=2.7 scipy==1.0.0 tensorflow-gpu==1.8 Keras==2.1.3 pandas==0.22.0 numpy==1.14.0 matplotlib scikit-learn
export PATH=$PATH:/data/anaconda/envs/TF/bin
export PATH=$PATH:/data/anaconda/envs/py35/bin
Эти команды извлекают официальные модели из Tensorflow:
git clone https://github.com/tensorflow/models.git
export PYTHONPATH="$PYTHONPATH:./models"
Первый вызов nvidia-smi
показывает, что в GPU нет запущенных процессов:
$ nvidia-smi
Mon Jan 21 16:26:02 2019
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 396.44 Driver Version: 396.44 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla M60 On | 0000DB4D:00:00.0 Off | Off |
| N/A 39C P8 14W / 150W | 0MiB / 8129MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+
Если вы на некоторое время оставите официальную модель MNIST в фоновом режиме, вы увидите один процесс, использующий графический процессор:
$ python models/official/mnist/mnist.py &
[1] 25967
$ nvidia-smi
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 396.44 Driver Version: 396.44 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla M60 On | 0000DB4D:00:00.0 Off | Off |
| N/A 37C P0 77W / 150W | 7851MiB / 8129MiB | 93% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| 0 26077 C python 7840MiB |
+-----------------------------------------------------------------------------+