У меня есть большое веб-приложение, работающее в AWS с многочисленными экземплярами EC2. Время от времени — примерно два или три раза в неделю — я получаю тревожное уведомление от моей системы мониторинга Sensu, уведомляющее меня о том, что моих экземпляров загрузил ЦП на 100%.
Это уведомление:
CheckCPU TOTAL WARNING: total=100.0 user=0.0 nice=0.0 system=0.0 idle=25.0 iowait=100.0 irq=0.0 softirq=0.0 steal=0.0 guest=0.0
Host: my_host_name
Timestamp: 2016-09-28 13:38:57 +0000
Address: XX.XX.XX.XX
Check Name: check-cpu-usage
Command: /etc/sensu/plugins/check-cpu.rb -w 70 -c 90
Status: 1
Occurrences: 1
Это кажется кратковременным явлением, и процессор возвращается к нормальному уровню в течение нескольких секунд. Так что, похоже, не о чем слишком беспокоиться. Но мне все равно интересно, почему так происходит. Обратите внимание, что ЦП занят 100% IOWaits.
К вашему сведению, система мониторинга Amazon не замечает этот сигнал. См. изображения ниже, показывающие уровни ЦП и ввода-вывода в 13:38.
Интересно, что AWS сообщает мне, что этот экземпляр скоро будет удален. Может ли это быть связано?