Прогнозирование временных рядов активно интересовало практиков в различных областях задолго до появления машинного обучения и искусственного интеллекта, и оно останется таковым для его постоянно актуальных приложений во всех аспектах нашей жизни. От составления бюджета продаж до управления запасами и прогнозирования погоды до предсказания запасов — методы прогнозирования активно используются повсюду.

В области прогнозирования временных рядов доступно множество литературы, однако трудно попытаться охватить все это в одном блоге. Вместо этого мы будем классифицировать и обобщать литературу объективным образом, основываясь на их параметрическом характере (если они имеют функциональную форму и параметры должны быть оценены) по сравнению с непараметрическим характером (они не требуют функциональной формы, следовательно, нет). необходимость оценки параметров). Затем мы поговорим о преимуществах и недостатках обоих. Наконец, мы обсудим нашу недавнюю работу по прогнозированию временных рядов без моделей (MLTF) [1] и обсудим, как мы расширяем парадигму непараметрического прогнозирования.

Параметрические подходы к прогнозированию временных рядов

Как следует из названия, с помощью этих подходов мы параметризуем проблему временных рядов в функциональной форме с ее историческими наблюдениями, экзогенными переменными и т. д. Они включают в себя как классические статистические методы, так и более сложные и недавние глубокие нейронные сети. подходы к обучению.

Алгоритмы статистического прогнозирования временных рядов используются практиками на протяжении десятилетий. Эти методы можно разделить на следующие группы:

  • Семейство Модели экспоненциального сглаживания (ESM). Основная философия здесь заключается в том, чтобы подогнать прогнозы будущих значений в виде средневзвешенных значений исторических наблюдений.
  • Семейство авторегрессионных интегрированных скользящих средних (ARIMA). Семейство ARIMA представляет атрибуты временных рядов с точки зрения определенных параметров с помощью метода спектральной декомпозиции. Общая модель ARIMA представляет собой комбинацию авторегрессионного (AR) члена, скользящего среднего члена (MA) и для временного ряда, который требует дифференцирования (т. е. нестационарного временного ряда), интегрированного (I) элемента. ARIMA может обрабатывать как сезонные, так и несезонные временные ряды. Помимо общего ARIMA, существуют другие варианты, такие как Vector ARMA и Нелинейный ARIMA, которые служат различным целям, таким как многовариантное прогнозирование или нелинейность соответственно.
  • Семейство ненаблюдаемых компонентных моделей (UCM):UCM (также известные как структурные модели) разбивает целевой одномерный ряд на различные компоненты с помощью алгоритма фильтрации Калмана (в отличие от ARIMA) удобным аддитивным способом для обеспечения прогнозирования. .

Алгоритмы прогнозирования на основе глубокого обучения. Благодаря достижениям в области методов глубокого обучения в последние годы, глубокие нейронные сети (ГНС), особенно рекуррентные нейронные сети (РНС), становятся все более популярными в области временных рядов. Различные формы долговременной кратковременной памяти (LSTM), Gated Recurent Units (GRU) и сети внимания (т. е. преобразователи) все чаще используются для многогоризонтного прогнозирования временных рядов. Модели глубокого обучения в целом часто терпят неудачу, когда дело доходит до интерпретируемости, из-за их природы черного ящика. Поэтому исследователи также объединили возможности обучения на основе данных из глубоких сетей и статистических методов, таких как нечеткая логика (Fuzzy Neural Networks), AR (DeepAR) и т. д., чтобы лучше справляться с неопределенностью и объяснимостью при прогнозировании.

В целом, статистические методы часто быстрее, чем модели глубокого обучения, и, в отличие от методов глубокого обучения, они менее требовательны к данным и легко интерпретируются. Поэтому во многих отраслях статистические методы по-прежнему являются предпочтительным выбором, когда речь идет о краткосрочном прогнозировании. Тем не менее, статистические методы часто не в состоянии уловить долгосрочные зависимости [2], тогда как глубокие RNN, как было показано, справляются с этим намного лучше [3]. Таким образом, в зависимости от варианта использования, когда требуется зафиксировать долгосрочную зависимость, методы глубокого обучения приобретают все большее значение.

Далее мы обсудим недостатки параметрических методов прогнозирования в целом и почему вместо них следует рассмотреть непараметрический подход.

Недостатки параметрического прогнозирования временных рядов

Основные проблемы, часто связанные с параметрическими методами:

1. Накопление ошибок: при выполнении длинных прогнозов с несколькими горизонтами (например, когда окно прогноза длинное по сравнению с краткосрочными прогнозами, когда мы пытаемся прогнозировать только на несколько шагов вперед), параметрические методы часто полагаются на близкие прогнозы. предсказывать для «дальних» прогнозов. Например:

y'(t+k) = f (y'(t+k-1), c) + ошибка = f (f(y'(t+k-2), c' + ошибка) + c) + ошибка = …….

Поэтому, чтобы предсказать что-то на «k» шагов вперед, модель продолжает повторно использовать более ранние прогнозы. Теперь на каждом шаге прогноза модель делает ошибку, которая накапливается в течение горизонта прогноза, что приводит к все более плохому прогнозу, как показано на следующем рисунке.

Мы видим, что модель прогнозирования (здесь ARMA) не может хорошо работать в задаче долгосрочного прогнозирования.

2. Предварительная и постобработка. Параметрические модели прогнозирования временных рядов требуют значительной предварительной и последующей обработки. Например, модель ARMA требует, чтобы временные ряды отличались в случае нестационарных рядов. Для большинства моделей глубокого обучения нам потребуется стандартизировать временные ряды, ввести пропущенные значения и т. д.

3. Обучение модели.Глубокие сети (особенно RNN) печально известны своим огромным временем обучения (поскольку они не могут быть легко распараллелены), что увеличивает вычислительную нагрузку на систему. много складок. Даже при использовании статистических методов нам необходимо аппроксимировать используемые параметры. Таким образом, обучение и конвергенция остаются актуальными проблемами для таких методов.

4. Влияние на бизнес.Обучение модели глубокого обучения может быть дорогостоящим делом из-за увеличения времени обучения и требуемой вычислительной мощности. Кроме того, методы DL часто являются черным ящиком по своей природе, оставляя мало возможностей для интерпретации. С другой стороны, статистические методы часто не на должном уровне, когда речь идет об учете долгосрочной зависимости, и поэтому плохо работают в прогнозах на несколько горизонтов.

Поэтому исследователи также оценивают подходы, не требующие параметризации. В дальнейшем мы будем называть их непараметрическими подходами.

Непараметрические подходы к прогнозированию временных рядов

С помощью непараметрических подходов мы ищем сходство внутри ряда (т. е. самоподобие: если шаблон возникал исторически, он может повториться в будущем) или между рядами (т. е. перекрестное сходство, т. е. повторяющиеся сходные шаблоны). в других сериях). Эти подходы основаны исключительно на данных и сходстве, поэтому не требуют параметризации.

1. Большая часть предшествующих исследований в этой области сосредоточена на подходах, основанных на самоподобии. Эти алгоритмы построены на основной идее, как объяснено в [4], «Если паттерн x_a в периоде, предшествующем моменту прогноза, подобен паттерну x_b из истории этого ряда, то паттерн прогноза y_a будет похоже на модель прогноза y_b». Другие известные работы в этой области включают [5–6]. Кроме того, древовидные модели также все чаще применяются для задач прогнозирования. Их также можно разделить на группы непараметрического самоподобия.

2. В статье Дежавю [7] исследователи предложили подход к прогнозированию на основе перекрестного подобия. Они продемонстрировали эффективность предложенного механизма с точки зрения точности и времени выполнения. Они также показали, что сходство между сериями, то есть перекрестное сходство, может быть более полезным, чем самоподобие.

Ограничения существующих непараметрических подходов

1. Большинство непараметрических подходов в литературе в первую очередь сосредоточены на самоподобии, что может ограничивать масштабы и области применения.

2. Подход, основанный на перекрестном сходстве, такой как дежавю, также имеет свои ограничения. Он использует дорогостоящий «динамический процесс переноса времени», который сравнивает тестовые ряды (т. е. ряды для прогнозирования) со всеми рядами в репозитории (содержащими пул одномерных рядов), чтобы найти прямое сходство, что делает его вычислительно дорогим и медленным.

3. Большинство непараметрических алгоритмов также требуют значительной предварительной и последующей обработки, такой как сглаживание (устранение тренда), десезонализация и т. д., что часто требует высокой квалификации.

Недавно мы предложили новый непараметрический подход к прогнозированию на основе перекрестного сходства под названием MLTF [1] для устранения ограничений существующих методов. Отличительные особенности MLTF:

  1. MLTF требует небольших вычислительных усилий и обеспечивает более быстрые прогнозы, чем его аналоги.
  2. MLTF не требует оценки параметров (или обучения) и, следовательно, требует меньшего вмешательства экспертов.
  3. MLTF требует минимальной предварительной или последующей обработки, что делает его более доступным для конечных пользователей.
  4. MLF не сталкивается с проблемой накопления ошибок, поэтому хорошо работает в длинных многогоризонтных прогнозах.
  5. MLTF выполняет прогнозы на основе перекрестного сходства, поэтому мы всегда можем обратиться к «похожим» рядам для интерпретируемости.

Следующая иллюстрация обобщает литературу по временным рядам,

Прогнозирование временных рядов без модели (MLTF)

В MLTF мы изучаем и прогнозируем траекторию для конкретного целевого ряда из репозитория (репозитория) одномерных рядов. В этом свете, во-первых, мы находим в репозитории серии, которые похожи на нашу целевую серию; Затем мы используем траектории из идентифицированного ряда для прогнозирования целевого ряда.

Структуру можно разделить на следующие пять компонентов:

1. Репозиторий: набор одномерных временных рядов.

2. Представление временных рядов. Основное внимание уделяется извлечению статистических характеристик временных рядов, таких как тренд, энтропия, корреляция и т. д., которые используются для поиска похожих рядов в репозитории.

3. Сопоставление похожих серий. Определите серии в репозитории, похожие на целевые серии. Алгоритм кластеризации k-средних используется с представлением временных рядов для этого отображения.

4. Повторная выборка: проверка того, что ряды разной длины перенастраиваются таким образом, чтобы все они имели ту же длину, что и целевые ряды.

5. Проекция траектории: использование «похожих» повторных выборок для прогнозирования целевых серий.

Диаграмма на рисунке 1 показывает, как работает MLTF.

Основные выводы

  1. MLTF не страдает от проблемы накопления ошибок и стабильно работает на разных частотах (от низкой годовой частоты в M1 и M3 до высокой почасовой частоты в наборе данных по электроэнергии) и различных типах рядов (от от стационарного к нестационарному, от сезонного к несезонному и т. д.
  2. Показано, что MLTF хорошо работает даже с более короткой исторической информацией. В значительной части целевой серии было небольшое количество образцов, и все же MLTF смогла работать лучше по сравнению с моделями глубокого обучения, требовательными к данным.
  3. MLTFработает быстрее, чем его аналоги, благодаря своей безмодельной природе, основанной исключительно на данных, и минимальным или нулевым требованиям к предварительной обработке, настройке или обучению.

Подробный численный анализ и обсуждение результатов см. в основной статье [1].

Заключительный вывод

Непараметрические методы прогнозирования, как правило, требуют минимальной предварительной или последующей обработки, их время выполнения значительно короче, а уровень их точности находится на одном уровне с параметрическими моделями. Эти подходы также выигрывают от лучшей объяснимости, потому что прогноз основан на сходстве, и мы всегда можем вернуться к «похожему ряду», чтобы понять природу прогноза. Мы также обсудили, как MLTF использует перекрестное сходство для предоставления прогнозов и в чем его преимущества по сравнению с его параметрическими аналогами.

Тем не менее, основной вывод из этой статьи должен состоять в том, что мы не должны ограничивать себя рамками параметризации, а скорее пытаемся заглянуть за ее пределы.В последнее время специалисты-практики все больше внимания уделяют больше на данных и меньше на модели, чтобы предприятия могли обеспечить повышенную точность, повышение эффективности и снижение затрат. Мы надеемся, что непараметрические методы, в которых ключом являются данные, значительно приблизит нас к мечте об «ориентированном на данные ИИ», и MLTF станет небольшим шагом в этом направлении!

Ссылки

  1. Саманта, Субхраджит, ПКС Пракаш и Шринивас Чилукури. «MLTF: прогнозирование временных рядов без моделей». Информационные науки 593 (2022): 364–384.
  2. Салинас, Дэвид, Валентин Фланкерт, Ян Гастхаус и Тим Янушовски. «DeepAR: вероятностное прогнозирование с авторегрессионными рекуррентными сетями». Международный журнал прогнозирования 36, вып. 3 (2020): 1181–1191.
  3. Лим, Брайан, Серкан О. Арык, Николя Лефф и Томас Пфистер. «Временные преобразователи синтеза для интерпретируемого прогнозирования временных рядов с несколькими горизонтами». Международный журнал прогнозирования 37, вып. 4 (2021): 1748–1764.
  4. Дудек, Г., 2010. Подходы к краткосрочному прогнозированию нагрузки, основанные на сходстве. Модели прогнозирования: методы и приложения, стр. 161–178.
  5. Николопулос К.И., Бабай М.З. и Бозос, К., 2016. Прогнозирование спорадического спроса в цепочке поставок с подходами ближайшего соседа. Международный журнал экономики производства, 177, стр. 139–148.
  6. Ли, Х., Лю, Дж., Ян, З., Лю, Р.В., Ву, К. и Ван, Ю., 2020. Адаптивно ограниченное динамическое искажение времени для классификации и кластеризации временных рядов. Информационные науки, 534, стр. 97–116.
  7. Канг Ю., Спилиотис Э., Петропулос Ф., Афиниотис Н., Ли Ф. и Ассимакопулос В. (2021). Дежавю: подход к прогнозированию, ориентированный на данные, через перекрестное сходство временных рядов. Журнал бизнес-исследований, 132, 719–731.

Биография автора:«Dr. Субхраджит Саманта — старший научный сотрудник в области искусственного интеллекта в ZS Associates. Он получил докторскую степень. из Наньянского технологического университета, Сингапур, в 2020 г. Его основной опыт включает прогнозирование временных рядов, статистику — классическое машинное обучение, создание синтетических данных и методы глубокого обучения (RNN).