У меня два вопроса-
Q1. Есть ли более эффективный способ справиться с ошибочной ситуацией в MPI, кроме контрольной точки / отката? Я вижу, что если узел "умирает", программа резко останавливается .. Есть ли способ продолжить выполнение после того, как узел умирает? (без проблем, если это происходит за счет точности)
Q2. Я читал в "http://stackoverflow.com/questions/144309/what-is-the-best-mpi-implementation", что OpenMPI имеет лучшую отказоустойчивость, и недавно MPICH-2 также придумал аналогичные функции .. действительно кто-нибудь знает, что это такое и как их использовать? это "режим"? могут ли они помочь в ситуации, указанной в Q1?
любезный ответ. Спасибо.