Я провожу ‹ 24 проверок своих систем. Сервера регулярно не сильно загружены. Средние значения нагрузки остаются значительно ниже 1 при нормальной работе.
Я заметил повторяющуюся проблему, когда проверка проверки процессора начинала вызывать высокие средние значения нагрузки в системах, где не было органической причины для высокой нагрузки. Дальнейшее расследование показало, что отчет о высокой нагрузке на самом деле был связан с запуском скрипта check-cpu параллельно с другими проверками. Вне выполнения проверок загрузка процессора была в порядке.
Я обновился с sensu 0.20 до 0.23 и продолжал наблюдать ту же проблему.
Мы обнаружили, что перезапуск служб sensu-server и sensu-client решит проблему на некоторое время (примерно 24 часа), а затем она вернется.
В этот момент мы предположили, что должна быть какая-то временная задержка в отправке/выполнении проверок на хосте, которая в конечном итоге приводит к этому перекрытию.
Все проверки настроены на запуск с интервалом 30 или 60.
Я решил установить интервал проверки процессора на 83, и с тех пор проблема не возникала. Предположительно потому, что проверка check-cpu не совпадает ни с какой другой, поэтому в этот короткий момент не наблюдается высокой загрузки процессора.
Это какая-то неотъемлемая проблема планирования с sensu? Предполагается ли, что он знает, как отправлять проверки с адекватным интервалом, или это то, что должно контролироваться параметром интервала?
Спасибо!