Мы заметили следующее странное поведение в нашем кластере presto (presto установлен на машинах Linux)
У нас есть 9 рабочих машин presto,
И на панели инструментов presto мы видим, что некоторое время есть 7-8
активные работники, а иногда - все работники presto - 9
это нормальное поведение?
Из журналов presto worker я не вижу ничего необычного
И я не уверен, нужно ли нам искать какие-либо проблемы с сетью или какие-либо другие проблемы?
Примечание. Когда я перезапускаю все рабочие процессы presto, то после перезапуска рабочие процессы presto стабильны на панели управления, но через 5-10
часов мы снова получаем странное поведение, мы беспомощны в этой ситуации,
Примечание 1 - мы проверяем, не перезапускаются ли бинарные файлы presto случайно - но это не так, все бинарные файлы presto worker стабильны.
./launcher status
Running as 22815
Я должен дополнительно сказать, что панель управления Presto не показывает, кто из работников presto не работает, поэтому очень трудно понять, какие из них являются "плохими" работниками presto,
*** в журнале координатора presto мы можем увидеть такое сообщение:
- but not sure this are related to our issues?
WARN http-client-memoryManager-scheduler com.facebook.presto.memory.RemoteNodeMemory Error fetching memory info from http://105.14.25.4:1010/v1/memory: java.util.concurrent.TimeoutException: Total timeout 10000 ms elapsed
#troubleshooting
в Presto Community Slack (prestosql.io/community.html ). - person Piotr Findeisen   schedule 08.08.2019