Akka Cluster удаляет сообщение о подключении пульса

Что означает информационное сообщение

FailureDetector(akka://MyCluster) - Remove heartbeat connection [akka://[email protected]:35250]

в кластере Акка имеете в виду? Кажется, я ничего не могу найти в документации. Я часто вижу это при запуске большого количества JVM с актерами на тестовой машине, но не уверен, что это плохой знак, требующий какой-то настройки Akka или Linux.

Akka 2.1.4 на Oracle JDK 1.7

Обновление. Последовав совету @ cmbaxter, я исследовал варианты настройки сердцебиения. Я обнаружил, что увеличение / уменьшение времени, связанного с сердцебиением, не влияет на наличие сообщений «Удалить соединение с сердцебиением». Тем не менее, я заметил параметр конфигурации «отслеживаемый-количеством-членов». Теперь я считаю, что сообщения указывают на то, что мониторинг пульса от конкретного узла передается от одной ActorSystem к другой. Следовательно, они указывают на текущую систему, просто заявляя, что это больше не является ее собственной ответственностью, вместо того, чтобы указывать какое-либо предупреждение о подключении. Действительно, во время запуска системы первый узел получает чертовски много «первых пульсовых сигналов», но затем удаляет большинство из них в соответствии с настройкой «отслеживается числом членов», когда нагрузка передается другим. узлы.


person Pengin    schedule 29.05.2013    source источник


Ответы (1)


Сообщение, которое вы видите, исходит от класса AccrualFailureDetector в Akka. Согласно документам:

The nodes in the cluster monitor each other by sending heartbeats to detect if a
node is unreachable from the rest of the cluster. The heartbeat arrival times is 
interpreted by an implementation of The Phi Accrual Failure Detector.

Я предполагаю, что узел кластера (работающий локально, на порте 35250) становился недоступным столько раз, что считалось, что он больше не является частью кластера. Когда это происходит, проверка пульса для этого узла удаляется, и вы видите это сообщение. Если вы считаете, что этот узел не был недоступен и, следовательно, не должен был быть удален из контрольного сигнала кластера, возможно, у вас возникла проблема. Взгляните на документы кластера здесь под Failure Detector раздел для получения дополнительной информации о том, как настроить обнаружение сбоев.

person cmbaxter    schedule 30.05.2013
comment
Интересно, что я вижу довольно много таких, но на самом деле ничто не отключается от кластера. Спустя несколько мгновений следующее сообщение должно сказать, что получено первое контрольное сообщение с того же адреса. Я попробую настроить интервалы, которые вы предложили, чтобы увидеть, станет ли лучше / хуже. - person Pengin; 30.05.2013