Продемонстрируйте точность модели машинного обучения временных рядов для канареечного анализа развертываний.

Модель

Имея 2 временных ряда одинаковой длины и выборку с одинаковой частотой, определите следующее:

  • Они похожи, если модели временных рядов похожи, а значения находятся в допустимом диапазоне отклонений.
  • Они несходны, если шаблоны различаются или значения находятся за пределами допустимого диапазона отклонений. Допустимый диапазон отклонений выводится моделью из обучающих данных.

Набор данных

Мы создаем синтетический набор данных, вдохновленный набором данных синтетического контроля UCI, который обычно используется для проверки моделей временных рядов в академическом сообществе. Набор данных содержит 500 примеров данных временных рядов, относящихся к 5 различным классам шаблонов, каждый из которых содержит 100 временных рядов. Классы шаблонов перечислены ниже:

  1. Нормальный — диапазон ограничен без явного восходящего или нисходящего тренда.

Генерируется с помощью y(t) = m + rs

2. Возрастание — четкий восходящий тренд

Генерируется с помощью y(t) = m + rs + gt

3. Понижение — Четкий нисходящий тренд

Генерируется с помощью y(t) = m + rs — gt

4. Upward Shift — нормальный тренд смещается вверх и возобновляет нормальный тренд.

Сгенерировать с помощью y(t) = m + rs + kx

5. Нисходящий сдвиг — нормальный тренд смещается вниз и возобновляет нормальный тренд.

Генерируется по формуле y(t) = m + rs — kx

Методология

Для каждого временного ряда в данном классе шаблонов мы проверяем его против контрольной группы, случайно выбранной из того же класса шаблонов, ожидая, что они будут помечены как похожие. Любой результат, помеченный как несходный, считается ошибкой.

Кроме того, мы сравнили каждый временной ряд из класса шаблонов с контрольной группой, выбранной из других классов шаблонов, ожидая, что они будут помечены как несходные.

Мы повторяем этот процесс 10 раз, чтобы уменьшить погрешность. Каждый класс шаблонов содержит 100 временных рядов. Каждая серия сравнивается с 10 контрольными группами из каждого из 5 различных классов образцов, что составляет 100 * 10 * 5 = 5000 сравнений. Мы подсчитываем ошибки из 5000 сравнений и сообщаем процентную точность сравнений между различными классами шаблонов в таблице ниже.

Легенда таблицы

  1. Значения, выделенные зеленым цветом, являются результатом сравнения временных рядов в пределах одного и того же класса шаблонов.
  2. Значения оранжевого цвета являются результатом сравнения временных рядов в разных классах шаблонов.

Резюме

Основываясь на результатах, становится ясно, что модель работает превосходно, когда шаблоны не похожи. Эта производительность имеет решающее значение, потому что мы хотим уловить сильные изменения шаблона со 100% точностью. Эти результаты говорят об очень низком уровне ложных отрицательных результатов для модели.

В одном и том же классе паттернов мы видим 100% точность для всех классов паттернов, за исключением нормального класса паттернов, который по-прежнему составляет 96%.

Вывод

Набор данных был создан синтетическим путем, как и набор синтетических данных UCI. Результаты демонстрируют высокую точность, которую мы можем достичь, используя модель машинного обучения SAX HMM для канареечного анализа временных рядов.

Ссылка: Временные ряды синтетических контрольных диаграмм доктора Роберта Алкока.

Шрирам.