Это то, чего я нигде не нашел.
У меня есть кластер YARN с некоторыми подчиненными. Когда ведомое устройство выходит из строя (обезьяна хаоса, уменьшение масштаба и т. д.), ResourceManager не «понимает это». Даже rmadmin -refreshNodes
не исправит. ResourceManager продолжает перечислять неисправные узлы как RUNNING
. Как мне сделать, чтобы ResourceManager проверял работоспособность ведомых устройств и удалял их в случае сбоя?