Марафон теряет контроль над Месосом, когда лидеры Марафона и Месоса не совпадают

Когда сервис mesos или marathon перезапускается по каким-то причинам и лидер mesos и marathon не находится на одной машине, деплойменты застревают в марафоне и в мезосе ничего не происходит, что приводит к ужасным результатам, когда марафон не может перезапустить отказавшие сервисы и ничего не делать с деплойментами пока лидеры снова не сойдутся.

В нашем кластере 3 мастера (устанавливаются через сайт мезосферы) и такая ситуация бывает довольно часто, можно ли это как-то исправить?

Марафон v.0.9.0 Месос v0.22.1


person Ihar Krasnik    schedule 08.10.2015    source источник


Ответы (1)


Похоже, что Mesos или Marathon используют частный IP-адрес (localhost/127.0.0.1), поэтому они не могут общаться друг с другом.
Вы должны решить проблему, выполнив установка общедоступного IP-адреса с использованием соответствующего флага командной строки --ip или переменной среды LIBPROCESS_IP.

Одним особенно полезным параметром является LIBPROCESS_IP, который сообщает главному и подчиненному двоичным файлам, к какому IP-адресу привязываться; в некоторых установках интерфейс по умолчанию, в который разрешается имя хоста, не является внешним IP-адресом машины, поэтому вы можете установить правильный IP-адрес с помощью этой переменной.

/source http://mesos.apache.org/documentation/latest/deploy-scripts/

person Orlando Hohmeier    schedule 19.10.2015