Благодаря достижениям в области машинного обучения и глубокого обучения и легкому доступу к данным вычислительные ресурсы стали важными для достижения более высокой производительности. Графические процессоры (GPU) способны распараллеливать процесс обучения и многократно сокращать время обучения. Однако настройка или установка системы GPU может быть кошмаром. В Интернете доступно множество учебных пособий, но я не считаю, что ни одно из них является исчерпывающим. Настроив несколько систем самостоятельно, копаясь вокруг, я чувствую необходимость в подробном руководстве, содержащем всю процедуру. Надеюсь, это поможет вам в процессе установки.

Вот процедура:

Система:
- Операционная система : Ubuntu 16.04 (кодовое имя: Xenial)
-
NVIDIA GeForce Titan X
-
CUDA : 9.2, Версия драйвера : 390.48, cuDNN : 7.1.4

1. Определите версии

Определите совместимые версии CUDA, cuDNN и Tensorflow в соответствии с требованиями. Следуйте таблице ниже

2. Установка драйвера NVIDIA

Удалите все, что связано с Nvidia.

$ sudo apt-get remove --purge nvidia*                       
$ sudo apt-get autoremove

Установите новейшие драйверы NVIDIA для вашей системы.

$ sudo add-apt-repository ppa:graphics-drivers/ppa 
$ sudo apt-get update (re-run if any warning/error messages)

Теперь перейдите в Системные настройки - ›Программное обеспечение и обновления -› Дополнительные драйверы и выберите отображаемый драйвер NVIDIA. Перезагрузить. Этого достаточно для установки драйвера Nvidia, который поддерживает ваша система. Проверьте установку, запустив nvidia-smi в терминале.

3. Отключить модерн

Создать файл

$ sudo nano /etc/modprobe.d/blacklist-nouveau.conf

добавьте это в указанный выше файл

blacklist nouveau
options nouveau modeset=0

Затем выполните.

sudo update-initramfs -u
sudo reboot

3. Установка CUDA Toolkit

Существует множество способов установки CUDA Toolkit, но я предпочитаю и рекомендую установку с использованием файла .run, что довольно просто. Для начала загрузите файл запуска cuda с https://developer.nvidia.com/cuda-downloads. Следуйте подсказкам, как показано ниже:

Перед установкой CUDA выполните несколько шагов, чтобы закрыть X-сервер.

Press Ctrl+Alt+F1
Login with username and password
$ sudo service lightdm stop
$ sudo init 3

Теперь установите CUDA Toolkit. Перейдите в каталог, в который был загружен файл .run, и выполните загруженный файл .run:

$ sudo chmod +x cuda_9.2.148_396.37_linux.run
$ sudo ./cuda_9.2.148_396.37_linux.run

Следуйте инструкциям, нажмите «НЕТ» при запросе на установку драйвера Nvidia (это самый важный шаг, помните, что подходящая версия драйвера nvidia уже установлена ​​на шаге 2). . После завершения установки:

$ sudo service lightdm start
            or
$ sudo service lightdm restart

Это установит CUDA Toolkit и перезапустит X-сервер без каких-либо конфликтов.

4. Установка cuDNN

  1. Перейдите на страницу загрузки cuDNN (требуется регистрация) и выберите последнюю версию cuDNN 7.0. *, Созданную для CUDA 9.2.
  2. Загрузите все 3 файла .deb: библиотеку времени выполнения, библиотеку разработчика и библиотеку примеров кода для Ubuntu 16.04.
  3. В папке загрузки установите их в том же порядке:
$ sudo dpkg -i libcudnn7_7.1.4.18-1+cuda9.2_amd64.deb
$ sudo dpkg -i libcudnn7-dev_7.1.4.18-1+cuda9.2_amd64.deb
4 sudo dpkg -i libcudnn7-doc_7.1.4.18-1+cuda9.2_amd64.deb

Теперь вам нужно обновить файл bash $ gedit ~/.bashrc в открытом текстовом редакторе, прокрутите вниз и введите следующие строки:

export LD_LIBRARY_PATH="$LD_LIBRARY_PATH:/usr/local/cuda/lib64:/usr/local/cuda/extras/CUPTI/lib64"
export CUDA_HOME=/usr/local/cuda

Сохраните и закройте.

Теперь CUDA и cuDNN установлены и готовы к работе. Если вы хотите использовать его с Tensorflow, быстро и легко установите pip

$ sudo apt-get install libcupti-dev
$ sudo pip install tensorflow-gpu (Python 2.x)
$ sudo pip3 install tensorflow-gpu (Python 3.x)

5. Протестируйте установку.

Вызов python: введите python в командной строке. Введите следующую короткую программу:

$ import tensorflow as tf
$ hello = tf.constant(‘Hello, TensorFlow!’)
$ sess = tf.Session()
$ print(sess.run(hello))

Вы должны увидеть «Hello, TensorFlow!». Поздравляю! Теперь ваша система полностью готова к изучению мира машинного обучения. Вы также можете ввести $ print(tf.__version__), чтобы проверить установленную версию TensorFlow.

6. Устранение неполадок

Иногда вы можете застрять в цикле входа в систему, лучше всего удалить все и повторить весь процесс.

$ sudo apt-get remove --purge nvidia*                       
$ sudo apt-get autoremove

использованная литература