Системный мониторинг при наличии последовательной корреляции

Обнаружение аномалий - горячая тема в машинном обучении. Как мы можем догадаться, определение «аномалии» зависит от предметной области. В приложениях с временными рядами, когда мы сталкиваемся с подобными проблемами, мы должны принимать во внимание также временное измерение. История серии содержит много информации о ее поведении и может предложить ее будущие изменения. Это особенно верно для серий, не генерируемых процессом случайного блуждания, и которые демонстрируют циклический / периодический паттерн.

Простая известная модель, которая имеет дело с временными рядами и извлекает информацию из их прошлого, - это ARIMA. Модели ARIMA - отличные инструменты для разработки инструментов прогнозирования временных рядов. Их способность узнавать, как развиваются серии, также может быть полезна в задачах обнаружения аномалий. В этом смысле классические подходы заключаются в том, чтобы пометить как аномалию наблюдение, выходящее за пределы допустимого диапазона. Этот подход ограничен одиночными сериями; если мы хотим рассмотреть более сложную систему, нам нужен другой подход.

В этом посте мы представляем методологию обнаружения аномалии в сложной системе, состоящей из нескольких коррелированных рядов. Мы используем модели VAR, многомерное расширение ARIMA, чтобы извлечь модель корреляции из рядов, имеющихся в нашем распоряжении. Информация, полученная VAR, затем используется для создания механизма определения пороговых значений, чтобы отмечать предупреждения, когда наша метрика превышает критическое значение.

ДАННЫЕ

Мы берем экспериментальные данные из Kaggle. Seattle Burke Gilman Trail - это набор данных, размещенный в городе Сиэтл, который является частью его проекта открытых данных. В наборе данных хранятся почасовые серии подсчета, обнаруженные датчиками. Эти датчики учитывают как людей, едущих на велосипедах, так и пешеходов. Отдельные объемы подсчитываются для каждого режима движения. Провода в форме ромба в бетоне обнаруживают велосипеды, а инфракрасный датчик, установленный на деревянной стойке, обнаруживает пешеходов.

Всего поставляется 5 счетных серий. 2 относятся к количеству пешеходов, 2 относятся к количеству велосипедов, а общая сумма представляет собой сумму предыдущих серий. Есть двойные счетчики для пешеходов и велосипедистов, потому что прописано два направления движения.

С учетом этих данных наше путешествие по обнаружению аномалий разделено на две части. Во-первых, мы предлагаем классический одномерный подход к обнаружению аномалий с использованием ARIMA. В конце мы переходим к многомерному подходу, рассматривающему все ряды и их взаимодействие в системе. В соответствии с объемом этого сообщения мы решаем агрегировать имеющиеся в нашем распоряжении данные, переходя от почасовых к ежедневным данным.

ЕДИНОЕ ОБНАРУЖЕНИЕ АНОМАЛИИ

В рамках одномерного подхода к аномалиям мы планируем использовать ARIMA для обнаружения странных паттернов. Решаем сосредоточиться на серии общих подсчетов. Первое, с чем нужно иметь дело при разработке ARIMA, - это позаботиться о стационарности, взрывных тенденциях или сезонности. Как мы можем легко проверить на графике выше и автокорреляции ниже, ряд общих подсчетов представляет двойную сезонность: еженедельно и ежегодно.

Долгосрочная сезонность может очень раздражать. Чтобы удалить его, мы вычитаем каждый день относительное среднемесячное значение, вычисленное по данным поездов. Таким образом, мы остаемся только с недельным паттерном, который наши модели могут без особых проблем усвоить.

Мы подбираем лучший ARIMA, ограничивая поиск около 7 авторегрессивным порядком, минимизируя AIC. Последняя модель, кажется, дает нормальные остатки без какой-либо степени автокорреляции.

С установленным ARIMA мы готовы искать аномалии. У нас есть 2 возможности: мы можем идентифицировать как аномалию каждое наблюдение за пределами доверительных интервалов или мы можем посмотреть на остатки. Каждая процедура требует производить итерационные прогнозы и каждый раз оценивать наш прогноз с фактическим значением.

Глубину интервала прогнозирования можно указать, передав параметр достоверности альфа. Анализ остатков требует выполнения стандартизации (процедура должна быть вычислена для вычисления среднего значения и стандартного отклонения для остатков обучения). Таким образом, мы можем работать с нормально распределенными остатками и фиксированными порогами достоверности из нормального распределения.

МНОЖЕСТВЕННОЕ ОБНАРУЖЕНИЕ АНОМАЛИЙ

Многомерное обобщение предыдущего подхода предполагает принятие модели VAR. Модель VAR расширяет одномерную модель авторегрессии (AR), фиксируя линейные отношения между несколькими переменными. Для каждой входной серии выполняется регрессия. Исходные переменные подвергаются регрессии по сравнению с их собственными запаздывающими значениями и запаздывающими значениями других переменных. Для нашей многовариантной задачи мы учитываем как велосипедную, так и пешеходную серию.

В системе многомерного процесса с наличием последовательной корреляции мы используем модели VAR для аппроксимации системы и отслеживания остатков как серийно независимых рядов. Использование VAR для аппроксимации линейной системы уместно из-за физических принципов динамики процесса.

Обучение VAR вычисляется так же, как и до выбора наилучшего порядка, минимизируя AIC. Данные стандартизированы таким же образом, чтобы исключить долгосрочную сезонность. Неудивительно, что лучшей моделью является VAR (7). После проверки независимости и нормальности остаточных данных можно вычислить статистику Т-квадрата Хотеллинга, чтобы обнаружить раннее наличие аномалий:

Применение контрольной диаграммы в виде Т-квадрата проводится в два этапа: этап установления контрольных пределов и этап мониторинга. На первом этапе основное внимание уделяется получению остатков модели, чтобы рассчитанный контрольный предел можно было использовать на втором этапе для мониторинга остаточного процесса будущих аномалий. Контрольный предел для контрольной диаграммы Т-квадрата определяется следующим образом:

Где F представляет собой F-распределение с p- и n-p степенями свободы и альфа-уровнем значимости. Если T2 ›UCL, остановитесь и исследуйте ситуацию. Расчетная сигма, полученная в конце фазы 1 (вместе со средними остатками и стандартным отклонением), используется для расчета статистики Т-квадрата для каждого нового наблюдения.

РЕЗЮМЕ

В этом посте мы представили хорошие рабочие процессы для выполнения задач по обнаружению аномалий. Мы начали подходить к одномерному случаю. Мы использовали подобранную ARIMA в качестве судьи, чтобы определить, являются ли будущие наблюдения аномальными. Мы также осознавали, что реальность может быть более сложной и может потребовать учета взаимодействия между различными переменными. По этой причине мы расширили наш анализ на многомерный случай с моделями VAR. Мы собрали остатки VAR и использовали их для создания системы пороговых предупреждений, которая помечает тревогу в случае аномального поведения.

ПРОВЕРИТЬ РЕПО НА GITHUB

Оставайтесь на связи: Linkedin

ССЫЛКИ

Использование векторных авторегрессионных остатков для мониторинга многомерных процессов при наличии серийной корреляции: Ся Пана, Джеффри Джарретт