Sensu планировщик Oddness

Я провожу ‹ 24 проверок своих систем. Сервера регулярно не сильно загружены. Средние значения нагрузки остаются значительно ниже 1 при нормальной работе.

Я заметил повторяющуюся проблему, когда проверка проверки процессора начинала вызывать высокие средние значения нагрузки в системах, где не было органической причины для высокой нагрузки. Дальнейшее расследование показало, что отчет о высокой нагрузке на самом деле был связан с запуском скрипта check-cpu параллельно с другими проверками. Вне выполнения проверок загрузка процессора была в порядке.

Я обновился с sensu 0.20 до 0.23 и продолжал наблюдать ту же проблему.

Мы обнаружили, что перезапуск служб sensu-server и sensu-client решит проблему на некоторое время (примерно 24 часа), а затем она вернется.

В этот момент мы предположили, что должна быть какая-то временная задержка в отправке/выполнении проверок на хосте, которая в конечном итоге приводит к этому перекрытию.

Все проверки настроены на запуск с интервалом 30 или 60.

Я решил установить интервал проверки процессора на 83, и с тех пор проблема не возникала. Предположительно потому, что проверка check-cpu не совпадает ни с какой другой, поэтому в этот короткий момент не наблюдается высокой загрузки процессора.

Это какая-то неотъемлемая проблема планирования с sensu? Предполагается ли, что он знает, как отправлять проверки с адекватным интервалом, или это то, что должно контролироваться параметром интервала?

Спасибо!


person dank    schedule 06.05.2016    source источник
comment
Мы запускаем наши проверки с разными, не выровненными интервалами по тем же причинам. Вместо каждых 30 секунд.   -  person Ken Brittain    schedule 09.05.2016


Ответы (1)


Я заметил, что проверки дрейфуют во времени выполнения. то есть они запускаются не ровно каждые 30 секунд, а каждые 30 001 с или что-то в этом роде. Я предполагаю, что дрейф может быть разным на разных проверках. Таким образом, в конечном итоге вы столкнетесь с проблемой, что проверки синхронизируются и выполняются одновременно, вызывая проблему. Выполнение большего количества проверок с регулярными интервалами (30 с, 60 с и т. д.) приведет к более частому возникновению этой проблемы. Если вы хотите изменить эту проблему, вы должны сообщить об этом напрямую sensu. Я думаю, что они могли бы исправить это в конце концов, поскольку они, вероятно, хотят, чтобы система была масштабируемой.

person Kobbe    schedule 06.05.2016
comment
Спасибо за отзыв! Это очень полезно. Я открыл эту проблему с Sensu: github.com/sensu/sensu/issues/1260 - person dank; 10.05.2016