Я новичок в использовании Microsoft Azure для научных вычислений и столкнулся с несколькими проблемами при настройке.
У меня есть установка Jump Box, которая действует как сервер лицензий для программного обеспечения, которое я хочу использовать, а также имеет общий диск для хранения всего программного обеспечения. Также настроено 6 вычислительных узлов (16 ядер/узел), и я без проблем могу подключиться по ssh из блока перехода к вычислительным узлам. Блок перехода и вычислительные узлы используют CentOS с OpenMPI 1.10.3.
Я создал сценарий, который хранится на смонтированном диске Jump Box, который я запускаю на каждом вычислительном узле с помощью clusRun.sh, который устанавливает все переменные среды, характерные для программного обеспечения, которое я запускаю, и OpenMPI. Надеюсь, на данный момент все звучит хорошо.
Раньше я без проблем использовал это программное обеспечение в кластерах Linux. Задания отправляются с помощью команды, похожей на:
mpirun -np XXX -hostfile XXX {путь к ПО}
Где XXX — количество процессоров и путь к хост-файлу.
Я запускаю эту команду в поле перехода, и в файле хоста есть список имен каждого вычислительного узла, имя каждого вычислительного узла находится в файле хоста столько раз, сколько ядер я хочу на узле. Надеюсь, это имеет смысл! На узле блока перехода нет процессов из задания, оно просто используется для запуска задания.
Когда я пытаюсь запустить задания таким образом, я получаю ряд ошибок, большинство из которых, похоже, связаны с Infiniband. Вот краткий список основных ошибок:
"The /dev/hfi1_0 device failed to appear after 15.0 seconds: Connection timed out"
"The OpenFabrics (openib) BTL failed to initialize while trying to create an internal queue"
"OMPI source: btl_openib.c:324
Function: ibv_create_srq()
Error: Function not implemented (errno=38)
Device: mlx4_0"
«По крайней мере, одна пара процессов MPI не может связаться друг с другом для связи MPI. Это означает, что ни одно устройство Open MPI не указало, что его можно использовать для связи между этими процессами».
Существуют ли какие-либо переменные среды, характерные для OpenMPI, которые необходимо настроить для определения каких-либо параметров Infiniband? Я уже определил обычные MPI_BIN, LD_LIBRARY_PATH, PATH и т. д. Я знаю, что IntelMPI требует дополнительных переменных.
Infiniband должен стать частью распределения A9 HPC, однако я не уверен, что он нуждается в какой-либо специальной настройке. Когда я запускаю «ifconfig -a», конкретных записей Infiniband нет (я ожидаю увидеть ib0, ib1 и т. д.). У меня есть только eth0, eth1 и вот
Я с нетерпением жду любого совета, который кто-то может предложить.
С уважением!
mpirun
?--mca btl_openib_receive_queues P,128,256,192,128:P,2048,1024,1008,64:P,12288,1024,1008,64:P,65536,1024,1008,64
Это должно превратить все пары общих очередей приема в частные. Ошибка продолжает возникать? - person Hristo Iliev   schedule 28.04.2017