Обнаружение контролируемых событий в многомерных временных рядах является важной темой исследований в области интеллектуального анализа данных и имеет широкий спектр приложений в отрасли. Эффективное и точное обнаружение событий помогает компаниям постоянно отслеживать свои ключевые показатели и вовремя предупреждать о потенциальных инцидентах. В этой статье мы увидим, зачем нам нужно контролируемое обнаружение событий в многомерных временных рядах.

В реальных приложениях многие наборы данных необходимо анализировать методами, которые не всегда применимы к структуре временных рядов данных. Например, при исследовании систем с непредсказуемой скоростью поступления в определенный час дня методы анализа не могут предсказать, каким будет это значение, и, следовательно, этот час может иметь отрицательное число событий (что невозможно. ). Такое нерегулярное поведение также может различаться по степени. Например, если из 5 случаев, когда люди опаздывают на работу, 2 пользуются общественным транспортом, который случайно задерживается, то заранее можно предсказать только 1 случай. В некоторых сценариях мы можем даже знать, почему произошло изменение, но это не мешает нам использовать статистические модели, разработанные специально для регулярных выборок и непрерывных данных.

Если количество нерегулярных случаев невелико, мы можем не обращать на них внимания и надеяться, что их эффекты будут как можно ближе к нулю. Другая распространенная практика - отбросить некоторые из тех значений, которые считаются слишком экстремальными для модели (всплеск). Если выясняется, что эти всплески случались слишком часто с обеих сторон, необходимо принять более решительные меры: либо преобразовать ряд в другую шкалу времени, чтобы все значения находились между 0 и 1 (или каким-либо другим диапазоном), либо отбросить эти выбросы. полностью из анализа. Однако даже если вы выполните одно или несколько из этих изменений, чтобы подогнать свои данные к моделям, предназначенным исключительно для данных с регулярной выборкой, всегда есть шанс, что они потерпят неудачу, потому что определенные проблемы, возникающие с данными с нерегулярной выборкой, не представлены в этих моделях. модели и могут быть непредсказуемыми.

При анализе данных с нерегулярной выборкой первое, что нужно сделать, - это выяснить, с каким типом нарушений вы имеете дело. Конечно, это зависит от характера вашей проблемы, но, скорее всего, она будет включать как минимум одну из следующих характеристик:

Резкие изменения

Проведите серию небольших постепенных изменений, ведущих к очень внезапному изменению (то есть к тому, что мы видим при построении цен на фондовом рынке). Событие, которое приводит к такому резкому изменению, не обязательно должно каким-либо образом быть связано с предыдущими изменениями. Во многих случаях эти события могут полностью изменить ход и характер временных рядов, поскольку они входят в новый режим или граничное условие. Например, кратковременный грипп может вызвать резкое падение производительности на фабрике, где рабочие привыкли к необычно высокой производительности и не проявляют никаких признаков слабости. Некоторые исследования показали, что подобные изменения происходят чаще, чем можно было бы ожидать (и они могут иметь значение для целей моделирования). Но даже те резкие изменения, которые не достаточно часты для статистического анализа, могут использоваться в качестве дополнительного источника информации для понимания конкретных закономерностей или тенденций.

Апериодические события

Ряд не состоит полностью из периодических событий, но определенные значения были записаны только один раз или почти никогда не встречаются (то есть то, что мы видим при построении графика температуры в городах за длительные периоды времени). Многие наборы реальных данных попадают в это, потому что для многих конкретных явлений (например, землетрясений) учетные записи ведутся людьми, и часто случаются перерывы в потоке информации (во времени). На первый взгляд может показаться, что эта категория не сильно отличается от категории обычных рядов: большинство методов статистического анализа не справляются с ней лучше или хуже, чем с набором данных с нерегулярной выборкой. Тем не менее, мы все еще можем использовать эти события в качестве дополнительных ключей для понимания паттерна / тенденции, частью которой они являются, даже если подходящие модели не представляют их правильно с некоторой предвзятостью.

Ограниченные изменения

Ограниченное изменение - это изменение, при котором в пределах определенного диапазона значения имеют тенденцию колебаться вокруг среднего значения, а за пределами этого диапазона может произойти все остальное, включая скачки вверх или вниз до значений, далеких от диапазона. Хотя ограниченный сбой не повлияет на модель в некоторой степени (т.е. он может произойти в наборе данных, который в остальном хорошо соответствует), может быть интересно увидеть, как различная предсказуемость такого рода изменений зависит от параметров вашей системы и, следовательно, их все же следует принимать во внимание.

Самоподобие

Сериал следует определенным правилам, которые заставляют некоторые части напоминать другие части (то есть то, что вы видите при построении береговых линий). Эти правила обычно очень специфичны для каждого типа структуры, которую мы наблюдаем, и не обязательно имеют прямую связь с реальными физическими законами, которые управляют системой. Обычно эти модели содержат намного больше параметров, чем необходимо только для того, чтобы соответствовать имеющимся временным рядам. Это немного усложняет работу с ними, особенно для тех моделей, которые обычно устанавливаются и полагаются на идентификацию параметров порядка. Однако, возможно, стоит посмотреть, сколько параметров и какие конкретные из них являются хорошими предикторами результатов, даже если они не использовались в процессе идентификации самой модели.

Кроме того, набор данных с нерегулярной выборкой может иметь свойства из нескольких категорий (например, он может содержать некоторые резкие изменения и некоторую самоподобие): как правило, для этих наборов данных требуются более сложные методы моделирования, потому что все эти проблемы должны быть решены. вместе, а не разделять их по категориям, как мы делали выше. В среднем, большие размеры выборки помогут нам справиться с большинством упомянутых проблем, и поэтому всегда лучше искать как можно более длинные временные ряды (даже если явления, которые он описывает, не так важны).

Алгоритмы контролируемого обнаружения событий полезны по нескольким причинам. Во-первых, их можно использовать для обнаружения недостающих или неверных значений данных. Во-вторых, они указывают на то, когда могла произойти необычная активность по сравнению с предыдущим базовым периодом. В-третьих, их выходные данные могут служить основой для последующих усилий по статистическому моделированию, в ходе которых разрабатываются предикторы, которые можно применять на этапах прогнозного моделирования, таких как линейная регрессия и деревья классификации. Обнаружение контролируемых событий (SED) анализирует многомерные временные ряды событий, таких как фондовые рынки, и ищет определенные модели активности. Эти шаблоны выбираются заранее аналитиком посредством создания шаблона. Эти шаблоны определяют, какой общий шаблон следует искать в данных, и, следовательно, программы SED должны быть обучены на прошлых примерах этих событий, прежде чем они смогут обнаружить их в новых данных.

Первоначально опубликовано на https://protonautoml.com 25 июня 2021 г.