Я новичок в распределенной операционной системе. И мне нужно обучить несколько моделей машинного обучения с помощью суперкомпьютеров. Мне нужно запустить один и тот же сценарий обучения несколько раз, и для каждого запуска передать сценарий с другим аргументом командной строки. Могу ли я добиться этого с помощью mpiexec, чтобы я мог параллельно обучать несколько моделей с разными входными данными?
Я нашел модель данных MPI с несколькими программами для одной программы, но не знаю соответствующих команд.
Я хочу запустить следующую строку параллельно среди вычислительных узлов в кластере.
python train.py arg > log.out # arg is the argument that differs for each node
Но, если я использую:
mpiexec train.py arg >log.out
он будет запускать train.py только с одним и тем же аргументом командной строки: arg несколько раз параллельно.
Может ли кто-нибудь указать правильный способ сделать это? Спасибо!
train.py
были переданы любому другому процессуtrain.py
, или они все полностью независимы, и меняется только аргумент? - person Ed Smith   schedule 02.10.2018