Приборная панель Presto + рабочие машины presto нестабильны

Мы заметили следующее странное поведение в нашем кластере presto (presto установлен на машинах Linux)

У нас есть 9 рабочих машин presto,

И на панели инструментов presto мы видим, что некоторое время есть 7-8 активные работники, а иногда - все работники presto - 9

это нормальное поведение?

Из журналов presto worker я не вижу ничего необычного

И я не уверен, нужно ли нам искать какие-либо проблемы с сетью или какие-либо другие проблемы?

введите здесь описание изображения

Примечание. Когда я перезапускаю все рабочие процессы presto, то после перезапуска рабочие процессы presto стабильны на панели управления, но через 5-10 часов мы снова получаем странное поведение, мы беспомощны в этой ситуации,

Примечание 1 - мы проверяем, не перезапускаются ли бинарные файлы presto случайно - но это не так, все бинарные файлы presto worker стабильны.

./launcher status
Running as 22815

Я должен дополнительно сказать, что панель управления Presto не показывает, кто из работников presto не работает, поэтому очень трудно понять, какие из них являются "плохими" работниками presto,

*** в журнале координатора presto мы можем увидеть такое сообщение:

- but not sure this are related to our issues? 

WARN    http-client-memoryManager-scheduler     com.facebook.presto.memory.RemoteNodeMemory     Error fetching memory info from http://105.14.25.4:1010/v1/memory: java.util.concurrent.TimeoutException: Total timeout 10000 ms elapsed

person jessica    schedule 08.08.2019    source источник
comment
Это ненормальное поведение, что-то не работает должным образом. Вы можете попросить совета по устранению неполадок #troubleshooting в Presto Community Slack (prestosql.io/community.html ).   -  person Piotr Findeisen    schedule 08.08.2019
comment
в таком случае у вас есть направление? или какой-то намек? , Я думаю, сообщество ответит через некоторое время, а переполнение стека - это то место, где мы получаем быстрые ответы - :)   -  person jessica    schedule 08.08.2019
comment
Если бы я только знал ответ ... Вам нужно проверить логи координатора и рабочих и поискать что-нибудь ненормальное. Сообщество может помочь понять значение и значение журналов (особенно, если там активны создатели Presto).   -  person Piotr Findeisen    schedule 08.08.2019
comment
Хорошо, я сделаю это - не могли бы вы посоветовать мне эту тему - stackoverflow.com/questions/57392597/   -  person jessica    schedule 08.08.2019
comment
Уважаемый - @Piotr Findeisen, пожалуйста, посмотрите мое обновление в вопросе, может быть, это связано с проблемой mu?   -  person jessica    schedule 08.08.2019
comment
Уважаемый @Piotr Findeisen, пожалуйста, посмотрите мой ответ, мне очень жаль, что я потратил ваше время из-за моей глупой ошибки   -  person jessica    schedule 09.08.2019


Ответы (1)


Прошу прощения за неудобства по поводу моего вопроса

на самом деле это моя ошибка и я объясню

в этом кластере presto у нас 9 работников presto

но я забыл удалить тех же рабочих имени хоста из другого кластера

поэтому такое поведение связано с тем, что 3 повторяющихся имени хоста (presto worker)

после удаления дубликатов presto worker теперь presto работает очень стабильно

person jessica    schedule 09.08.2019