У меня интересный сценарий с AWS CloudWatch Logs. В настоящее время я использую log4net и перекачиваю все журналы в CloudWatch Logs с помощью агента CloudWatch Logs. У меня есть метрика в CloudWatch, которая в основном сканирует записи [ERROR], а Alarm передает их другой службе для уведомлений разработчиков по мере их появления (порог> = 1, период - 1 мин). Все это отлично работает.
Теперь я хочу по-другому обрабатывать некоторые ошибки. Например, в зависимости от типа исключения я хочу активировать тревогу только тогда, когда в течение N минут произошло X событий. Итак, в этом случае я бы создал метрику для этого условия, а затем назначил бы ей Alarm. Проблема в том, что общая метрика ошибок, описанная в первой части этого вопроса, все еще отслеживает каждое отдельное возникновение ошибки. Итак, теперь я получаю несколько уведомлений. Один для каждой ошибки и один после X повторений.
Я могу отключить общую метрику ошибок, но при этом теряю возможность отслеживать необработанные исключения. Мне нужно было бы иметь метрику для каждого возможного исключения. Я что-то упускаю? Как лучше всего с этим справиться?