Меня интересует поддержка RDMA в tensorflow 1.15 для рабочих процессов и серверов параметров для прямой связи без использования ЦП. У меня нет устройств infiniband VERBS, но я могу построить тензорный поток из исходного кода с поддержкой VERBS.
bazel build --config=opt --config=cuda --config=verbs //tensorflow/tools/pip_package:build_pip_package
после sudo yum install libibverbs-devel
на centos-7. Однако после установки pip собранного пакета через
./bazel-bin/tensorflow/tools/pip_package/build_pip_package /tmp/tensorflow_pkg && pip install /tmp/tensorflow_pkg/tensorflow-1.15.0-cp36-cp36m-linux_x86_64.whl,
мое обучение не удалось со следующей ошибкой:
F tensorflow/contrib/verbs/rdma.cc:127] Check failed: dev_list No InfiniBand device found
Это ожидаемо, так как на моей машине нет оборудования infiniband. Но нужен ли мне infiniband, если моя работа выполняется не на нескольких компьютерах, а на одном компьютере? Я просто хочу проверить, может ли RDMA значительно ускорить обучение параметров на основе сервера. Спасибо.