отказоустойчивость в MPICH / OpenMPI

У меня два вопроса-

Q1. Есть ли более эффективный способ справиться с ошибочной ситуацией в MPI, кроме контрольной точки / отката? Я вижу, что если узел "умирает", программа резко останавливается .. Есть ли способ продолжить выполнение после того, как узел умирает? (без проблем, если это происходит за счет точности)

Q2. Я читал в "http://stackoverflow.com/questions/144309/what-is-the-best-mpi-implementation", что OpenMPI имеет лучшую отказоустойчивость, и недавно MPICH-2 также придумал аналогичные функции .. действительно кто-нибудь знает, что это такое и как их использовать? это "режим"? могут ли они помочь в ситуации, указанной в Q1?

любезный ответ. Спасибо.


person Param    schedule 22.03.2011    source источник


Ответы (1)


MPI - все реализации - имели возможность некоторое время продолжать работу после ошибки. По умолчанию он умирает, то есть обработчиком ошибок по умолчанию является MPI_ERRORS_ARE_FATAL, но это можно установить (например, см. Обсуждение здесь). Но стандарт в настоящее время не намного превосходит это; то есть после такой ошибки трудно восстановить и продолжить. Если ваша программа достаточно проста - своего рода настройка типа «мастер-рабочий» - возможно, можно будет продолжить и дальше.

MPI forum в настоящее время работает над тем, что станет MPI-3, а обработка ошибок и отказоустойчивость будут важный компонент нового стандарта (есть рабочая группа посвящено теме). Однако пока эта работа не будет завершена, единственный способ повысить отказоустойчивость MPI - это использовать более ранние нестандартные расширения. FT-MPI был проектом, в котором был разработан очень надежный MPI, но, к сожалению, он основан на MPI1. 2; очень ранняя версия стандарта. здесь утверждает, что теперь они работают с OpenMPI, но я не Не знаю, что с этим стало. Есть MPICH-V, основанный на MPI2, но это больше зависит от перезапуска контрольной точки, чем то, что, я думаю, вы » повторно ищем.

Обновлено для добавления: отказоустойчивость не вошла в MPI-3, но рабочая группа продолжает свою работу, и ожидается, что что-то из этого выйдет в ближайшее время.

person Jonathan Dursi    schedule 22.03.2011