Хотя определенные временные ряды совместимы с методами прогнозирования, многие - нет. Цены на активы попадают в последнюю категорию.

Заявление об ограничении ответственности: эта статья написана на условиях «как есть» без каких-либо гарантий. Он был написан с целью предоставить обзор концепций науки о данных и не должен интерпретироваться как совет по инвестициям или какой-либо другой профессиональный совет.

Есть два типа временных рядов.

  1. Те, в которых будущие временные шаги сильно зависят от прошлых временных шагов и, таким образом, могут быть спрогнозированы.
  2. Те, где на будущие временные шаги не влияют прошлые временные шаги, что очень затрудняет прогнозирование.

Для варианта 1 возьмем в качестве примера погодные условия.

Сезонность против цикличности

Температурные режимы в большей части мира следуют сезонному циклу, то есть весной, летом, осенью и зимой.

Следовательно, очевидно, что этот тип временных рядов легче прогнозировать с использованием прошлых данных, поскольку будущие временные интервалы показывают сильную корреляцию с прошлым.

Вот пример моделей автокорреляции для данных о месячной температуре в умеренном климате. Автокорреляция (или корреляция каждого временного лага с предыдущим) наиболее сильна после каждых 12 лагов, например январские температуры сильно коррелируют с температурами предыдущего января и так далее.

Однако цены на активы (по большей части) являются скорее циклическими, чем сезонными. Это означает, что, хотя во временных рядах есть пики и спады, они не возникают через фиксированные интервалы.

Например, вот модель автокорреляции для фьючерсов на газойль, непрерывный контракт №2 (данные были получены из Wiki Continuous Futures с использованием Quandl API). Рассматриваемые данные состоят из ежемесячных данных с января 1981 года по декабрь 2020 года.

Мы видим, что даже после 200 лагов по-прежнему нет визуальных свидетельств сезонной динамики фьючерсов на газойль. Несмотря на то, что можно было подумать, что это может быть связано с погодными факторами (т.е. спрос на газойль обычно увеличивается зимой, что приводит к росту цен), этого не произошло.

Причина этого в том, что на стоимость активов влияет множество различных факторов, например, связанных с макроэкономической политикой и геополитическими событиями. Более того, цены на активы в значительной степени подвержены стохастичности или случайности. Это особенно верно при анализе цен в краткосрочной перспективе. Учитывая, что многие рыночные события подвержены случайности, их нельзя предсказать, используя прошлые данные. Например, такое событие, как COVID-19, неизбежно повлияет на цены активов, но это не может быть учтено в прошлых данных.

Глядя на график фьючерсов на газойль (отображаемый в логарифмическом формате), мы видим, что в данных присутствуют пики и спады. Однако, если отбросить случайность в этих колебаниях, на ряд в значительной степени влияют события, а не прошлые данные. Если у человека нет хрустального шара, чтобы предсказать эти события, то прогнозирование будет в значительной степени академическим и не имеет реальной ценности.

Машинное обучение

Учитывая, что цены на активы не содержат многих компонентов, необходимых для составления надежных прогнозов временных рядов, более поздний подход заключался в использовании последовательных нейронных сетей в попытке спрогнозировать цены на активы.

Идея этого подхода заключается в том, что нейронная сеть может эффективно изучать закономерности во временных рядах, чтобы адекватно прогнозировать будущие колебания. При адекватном размере данных нейронная сеть, такая как LSTM или CNN, предположительно показала бы многообещающие результаты в прогнозировании цен на активы.

Однако этот подход страдает тем же ограничением: все обучение основано на прошлых данных. Прошлые данные не содержат информации о непредвиденных будущих событиях.

Хотя возможности такой нейронной сети по распознаванию образов были очень полезны в таких областях, как классификация текста или распознавание изображений, это не обязательно означает, что такие модели следует использовать для прогнозирования финансовых рынков.

Вернемся ненадолго к примеру с рынком фьючерсов на газойль.

С помощью CNN (сверточной нейронной сети) были сделаны следующие прогнозы на основе набора для проверки фьючерсных цен. Красная линия представляет фактическую цену, а зеленая линия - прогноз.

Среднеквадратичная ошибка 0,11 довольно низка по сравнению со средним значением 6,19 по набору проверки. Это означает, что модель очень эффективна при прогнозировании цены фьючерса.

Однако при более внимательном рассмотрении графика мы видим, что зеленая линия на самом деле не является прогнозом как таковым - это просто иллюстрация того, что CNN изучила предыдущие шаблоны временных рядов. В этом отношении использование CNN для составления прогнозов на многие шаги вперед, вероятно, окажется непрактичным, поскольку модель постоянно нуждается в обновлении новыми данными для изучения самых последних закономерностей ряда.

Заключение

Финансовые рынки по своей природе подвержены высокой степени волатильности, и в значительной степени будущие события определяют направление цены в любой момент времени.

Прошлые данные не могут учесть эти факторы. Как было сказано, если данные в модели неверны, то результаты модели также будут неверными. Что касается цен на активы, прошлые данные во многих случаях являются «неверными», поскольку они не учитывают изменения, которые с тех пор произошли на рынках.

Возвращаясь к примеру с погодой, это не проблема, поскольку прогнозы погоды на будущее в значительной степени учитываются в прошлых данных. Да, могут быть экстремальные погодные явления, которые можно было бы лучше смоделировать с помощью методов обнаружения аномалий или моделирования Монте-Карло, но в целом такие временные ряды гораздо больше подходят для прогнозирования.

Финансовые временные ряды, возможно, являются наиболее сложными наборами временных рядов. Даже наука о данных ограничена в возможности их моделировать.