Узнайте, как применять модели глубокого обучения к финансовым данным дисциплинированным и понятным образом

В этом посте я делаю обзор моего нового рабочего документа о глубоком обучении и динамике рынка акций США. Я начинаю с краткого резюме статьи, в котором освещается вопрос исследования и основные результаты, после чего я намеренно надеваю шляпу практикующего специалиста (количественный анализ на стороне покупателя / PM, в настоящее время переходящий с одного места работы на другой и открытый для новых возможностей, подсказка подсказка) и сосредоточьтесь на следующих практических аспектах дисциплинированного количественного исследования:

  1. Мотивированный выбор функций и функций инжиниринга
  2. Системный подход к выбору оптимальных сетевых архитектур и строительных ансамблей
  3. Интерпретация прогнозов модели

Статья доступна на ССРН, а ее сокращенное содержание можно найти здесь. Комментарии, предложения и отзывы приветствуются и ждем с нетерпением.

Сообщение довольно длинное, поэтому вот основные выводы:

  • Я исследую прогностическую силу широкого набора переменных, связанных с моментом, в структуре глубокого обучения и документирую богатую, нелинейную, изменяющуюся во времени структуру в их влиянии на ожидаемую доходность. Инвестиционные стратегии, основанные на прогнозах модели глубокого обучения, активно используют нелинейности и эффекты взаимодействия, генерируя высокую и статистически значимую прибыль с надежным профилем риска и их эффективностью, практически не коррелирующей с установленными факторами риска.
  • Продуманный подход к входным данным модели имеет первостепенное значение: обычные проблемы с финансовыми данными, например дефицитность, нестационарность и зависимость от состояния могут быть уменьшены за счет мотивированного выбора функций и проектирования функций.
  • Автоматическая оптимизация гиперпараметров важна не только потому, что она приводит к улучшению архитектуры моделей, но и потому, что она добавляет дополнительный уровень дисциплины моделирования, повышая воспроизводимость результатов.
  • Интерпретируемость прогнозов модели машинного обучения имеет решающее значение. Возможность связать прогнозы с установленными фактами о поведении активов служит проверкой правильности результатов.

I. Введение и резюме

В финансовой сфере импульс относится к феномену перекрестной предсказуемости доходности по прошлым ценовым данным. Стандартным примером может служить хорошо задокументированная тенденция акций, которые имели высокую доходность за последние от одного до двенадцати месяцев, по-прежнему превосходить акции, которые показали плохие результаты за тот же период. Положительная прибыль от покупки прошлых победителей и продажи прошлых проигравших - это давняя рыночная аномалия в финансовых исследованиях, документированная практически для каждого класса активов и буквально на протяжении сотен лет. Обратите внимание: поскольку акции сравниваются с их аналогами, мы говорим о перекрестной предсказуемости, в отличие от импульса временного ряда или следования за трендом, когда решение о покупке или продаже акций зависит только от их собственных прошлых результатов. За последнюю четверть века в финансовой литературе было предложено множество способов измерения импульса, например с точки зрения горизонта ретроспективного анализа, и определила множество смешанных переменных, таких как волатильность рынка, прогнозируя ее эффективность в качестве инвестиционной стратегии. Развивающаяся область финансового машинного обучения также обнаруживает, что прошлые данные о ценах являются одними из самых надежных предикторов будущей прибыли, доминируя над фундаментальными переменными, такими как соотношение балансовой и рыночной стоимости.

В этой статье я исследую прогностическую силу широкого набора ценовых функций на различных временных горизонтах в рамках глубинного обучения. Мои результаты и вклад заключаются в следующем:

  • Эмпирический: я документирую богатую нелинейную структуру влияния этих характеристик на ожидаемую доходность фондового рынка США. Величина и знак удара существенно изменяются во времени и модулируются эффектами взаимодействия между элементами. Степень нелинейности ожидаемой доходности также существенно меняется со временем и является самой высокой на проблемных рынках.
  • Методологические. Я использую дифференцируемость выходных данных нейронных сетей по отношению к входным данным, чтобы изучить направленное влияние функций на прогнозы моделей, их эволюцию во времени и взаимодействие с другими переменными. Этот анализ позволяет явно связать прогнозы со стилизованными фактами об импульсе, тем самым повышая прозрачность результатов и демонстрируя интерпретируемость печально известного алгоритма черного ящика. Далее я демонстрирую, как использовать методы оптимизации гиперпараметров и построения ансамбля для систематического выбора наиболее эффективных моделей.
  • Практичность: инвестиционные стратегии, построенные на вневыборочных прогнозах модели глубокого обучения, активно используют нелинейности и эффекты взаимодействия, обеспечивая высокую и статистически значимую прибыль с надежным профилем риска и их эффективностью практически. не коррелируют с установленными факторами риска, включая динамику и портфели машинного обучения из текущей литературы.

Остальная часть поста организована следующим образом:

II. Важность разработки функций
III. Модель и данные
IV. Оптимизация гиперпараметров и построение ансамблей
В. Результаты набора тестов и интерпретируемость прогнозов
VI. Заключительные замечания

II. Почему важен выбор функций и характеристик?

Финансовые данные особенные и требуют вдумчивого подхода. Во-первых, по сравнению со стандартными наборами данных для приложений машинного обучения он довольно ограничен по объему и доступности - действительно, для подавляющего большинства рынков у нас нет данных высокого качества до 1990-х годов. Во-вторых, эта проблема усугубляется тем, что финансовые данные не являются стационарными. Вообще говоря, правила, регулирующие процесс генерации данных, могут меняться со временем, например, тридцать лет назад торговые издержки были на порядок выше, чем сейчас, особенно для небольших акций, таким образом, сохраняя все остальное на одном уровне, обеспечивая более высокую ожидаемую доходность по сравнению с их более крупными и крупными акциями. более жидкие аналоги. Более того, многие важные переменные, влияющие на отдачу, могут быть исключены из модели или не испытать полный диапазон их значений по обучающей выборке. Конкретным примером этой проблемы может быть совершенно разное поведение цен на активы в периоды высокой и низкой рыночной волатильности, или режимы - обучение модели на подмножестве данных, которое охватывает период времени, соответствующий только одному режимов может ухудшить способность модели к обобщению на тестовой выборке. Конечно, не только волатильность рынка, но и другие переменные, такие как макроэкономическая статистика, настроения в связи с объявлениями о денежно-кредитной политике и т. Д., Могут резюмировать общее состояние рынка. В-третьих, финансовые данные демонстрируют очень низкое отношение сигнал / шум. Учитывая, что самые мощные модели, такие как нейронные сети, обладают низким уровнем систематической ошибки и высокой дисперсией обучающихся, это означает, что модели будут превосходить шум в данных. Подводя итог, можно сказать, что в сфере финансов у нас нет нескольких миллиардов изображений кошек, на которых можно обучать моделей; финансовые кошки также в основном выглядят как шумные и могут превращаться в ленточного червя или сову с неизвестной вероятностью в третий четверг каждого високосного года, если температура окружающей среды ниже нуля.

Все вышеперечисленные проблемы означают, что мы не можем полагаться на подход мясорубки и просто подключаем все доступные необработанные данные, надеясь, что алгоритм подберет важные функции без серьезного переоснащения собственного шума. К счастью, у нас есть несколько десятилетий исследований предсказуемости возврата, которые в основном связаны с разработкой функций. Что еще более важно, у этих инженерных характеристик есть некоторое теоретическое или эмпирическое обоснование их способности предсказывать отдачу.

Например, цифра в верхней части сообщения показывает падение доходности по стандартной стратегии импульса для длинных и коротких позиций (т.е. покупка прошлых победителей и продажа коротких прошлых проигравших) в начале 2009 года. Стандартный импульс позволяет покупать или продавать акции в зависимости от их результатов. за последние 12 месяцев, пропуская самый последний месяц, это часто обозначается как импульс 12–1. Механизм краха хорошо изучен: львиную долю колебаний доходности отдельных акций можно отнести на счет одного фактора - рынка. Акции, которые демонстрируют более высокую степень совместного движения с рынком, превосходят акции, которые менее коррелируют с рынком в периоды, когда рынок растет. Обратное верно во время рыночных спадов. Мы можем измерить нормализованную степень совместного движения, оценив коэффициент наклона или бета, в следующей простой линейной регрессии доходности акций на доходность рынка, также называемой рыночная модель:

где точка пересечения регрессии, или альфа, измеряет компонент доходности акции i, который ортогонален рынку. К концу 2007 года фондовый рынок США вступил в спад, потеряв более половины своей стоимости к началу 2009 года, поэтому стратегия импульса 12–1 заключалась в инвестировании в акции с низким бета, которые относительно невредимы после краха рынка 2008 года. и продавал акции с высоким коэффициентом бета, которые понесли наибольшие убытки. Обратите внимание, что стратегия или портфель представляет собой линейную комбинацию составляющих: низкая бета длинных позиций минус высокая бета коротких позиций привела к общему отрицательному бета портфеля. Другими словами, в начале 2009 года импульс 12–1 был настроен против рынка. Когда рынок быстро восстановился, импульс претерпел второй худший обвал в истории после Великой депрессии, во время которого импульс 12–1 наступил на те же грабли. На Рисунке 1 представлена ​​наглядная иллюстрация: значения S&P 500 (на верхней панели) и разница в средних годовых рыночных бета-показателях между прошлыми победителями и прошлыми проигравшими по отдельным акциям. Средняя бета стратегии импульса снова стала положительной только в июне 2009 года, когда рынок уже восстановил примерно 25% по сравнению с самой низкой точкой.

См. Daniel and Moskowitz (2016) для получения дополнительной информации о сбоях импульса.
См. Раздел 2.1 этого сообщения Boris B, где приведен пример рассуждения о том, почему определенные функции имеют смысл как входные переменные алгоритма ML

Действительно, существующие исследования могут дать убедительное понимание того, что должна учитывать хорошая модель. Несколько абзацев рассуждений сразу дают нам интуицию, что рыночная доходность, бета-версия и их взаимодействие могут иметь решающее значение. Фактически, обманчиво простая одномерная регрессия, приведенная выше, обеспечивает две дополнительные функции с эмпирической и теоретической поддержкой: оценку точки пересечения, или альфа, и стандартное отклонение остатка, которое измеряет идиосинкразическую волатильность. Ключевым моментом здесь является то, что вместо того, чтобы вводить в модель весь временной ряд доходов в надежде, что она вычислит оценки самостоятельно, и рискуя столкнуться с проблемами, описанными в начале раздела, мы можем использовать наш ex-ante знание функций и их преобразований, которые предсказывают отдачу, и проектируют более экономичный и интерпретируемый набор переменных.

Я даже не коснулся вопроса качества данных, который сам по себе является важной темой, но имеет меньшую проблему для исследования импульса, потому что данные о ценах довольно чисты по сравнению, например, с фундаментальными коэффициентами бухгалтерского учета, которые могут быть представлены с задержкой. и могут быть изменены поставщиками данных, а это означает, что то, что у нас есть для обучения модели, может значительно отличаться от того, что у нас было бы в реальном приложении.

Я отсылаю читателей, интересующихся ограничениями финансовых данных в приложениях машинного обучения, к Arnott, Harvey and Markowitz (2019).

III. Модель и данные

А. Модель

Я определяю задачу прогнозирования доходности как проблему классификации и оцениваю вероятность того, что в следующем месяце доходность акции будет выше и ниже медианной доходности всего поперечного сечения. Цели прогнозирования или метки для акций i определяются следующим образом:

При наличии вектора запаса i признаков в месяц t, X (i, t), прогнозируемая вероятность является функцией характеристик и весов:

Я выбираю простейшую архитектуру - многослойный персептрон - и обучаю модель, минимизируя бинарную кросс-энтропию с помощью оптимизатора Адама. Я также добиваюсь равного представления классов в каждой мини-группе, обнаружив, что это значительно улучшает стабильность обучения. Для регуляризации я использую раннее прекращение и прекращение учебы.

Классификация дает несколько преимуществ по сравнению с регрессией, которая является основным элементом ценообразования эмпирических активов. Во-первых, по своей конструкции метки имеют одинаковое распределение во времени и одинаковую величину, что упрощает обучение, решая проблему изменения во времени поперечного распределения доходов. Во-вторых, поскольку двоичная классификация охватывает все пространство выборки, предполагаемая вероятность возврата, превышающая некоторую константу, в нашем случае медиана поперечного сечения, прямо пропорциональна ожидаемой доходности при условии, что ошибка измерения является случайной. В-третьих, на практике мы часто гораздо больше заботимся об ожидаемой производительности актива по сравнению с аналогами, чем о точечной оценке его будущей доходности.

Б. Данные

Я использую стандартный набор данных CRSP по акциям США за период с января 1965 года по декабрь 2018 года. В результате у меня остается около 20 000 уникальных акций в выборке после применения фильтров доступности данных. Далее я намеренно сосредотачиваю основную часть своего анализа на подвыборке крупнейших акций, выбирая каждый месяц 500 лучших акций по рыночной капитализации, а остальные акции оставляю для проверки устойчивости. Полученная подвыборка охватывает в среднем три четверти общей капитализации фондового рынка США и статистически неотличима от S&P 500 с точки зрения дневной доходности. Основная причина сосредоточить внимание на больших кепках - это убедительные доказательства недавних репликационных исследований о том, что основная сила прогнозирования для подавляющего большинства переменных, предсказывающих доходность, сосредоточена в малых и микрокапитах, что чрезвычайно актуально на практике, когда транзакционные издержки и цена влияние торгов - это реальность.

Я установил горизонт прогнозирования на один месяц и разбил выборку следующим образом: обучающая выборка охватывает период с января 1965 года по декабрь 1982 года и включает 105 177 примеров с запасами в месяц; набор для валидации - с января 1983 г. по декабрь 1989 г. (41 408 примеров); а набор тестов - с января 1990 г. по декабрь 2018 г. (170 385). Дополнительный набор тестов, включающий все стоки, содержит более 1 200 000 примеров.

Следуя обсуждению в предыдущем разделе, я создаю набор функций, которые мотивированы результатами предыдущего исследования и имеют некоторое обоснование того, почему и как они связаны с ожидаемой отдачей. Например, я включаю рыночную доходность и волатильность, измеренные на горизонте 10 дней и 1, 2, 3, 6, 12, 18, 24 месяца, или альфа и бета из регрессии рыночной модели в предыдущем разделе, оцененные на горизонте от 10 дней. до 12 месяцев. Полный список функций, их обоснование и ссылки на соответствующие исследования можно найти в Разделе II документа.

Чтобы облегчить обучение, я нормализую переменные, зависящие от акций, то есть доходность акций в прошлом, бета, альфа и т. Д., По отношению к поперечному сечению, вычисляя z-значения каждый период времени. Для временных рядов рыночной волатильности и доходности я вычисляю z-баллы относительно их собственной истории до даты оценки, чтобы избежать предвзятости прогноза.

IV. Выбор оптимальных архитектур нейронных сетей и строительных ансамблей

А. Оптимизация гиперпараметров

Модели глубокого обучения очень чувствительны к выбору гиперпараметров, которые определяют архитектуру модели и направляют процесс оценки. Производительность модели часто больше зависит от гиперпараметров, чем, например, от того, насколько сложна конкретная модель. Bergstra et al. (2013) утверждают, что настройка гиперпараметров должна быть формальной, количественной и воспроизводимой частью оценки модели. Bergstra et al. (2011) представляет алгоритм TPE - метод последовательной байесовской оптимизации, позволяющий формализовать задачу настройки гиперпараметров как задачу внешней оптимизации. Они демонстрируют, что TPE превосходит как ручной, так и случайный поиск. Идея алгоритма состоит в том, чтобы начать с априорных распределений гиперпараметров θ и смоделировать потери как стохастическую функцию θ, а затем выбрать гиперпараметры из хорошего распределения, соответствующего значения потерь ниже определенного порога и выберите значения гиперпараметров, которые максимизируют ожидаемое улучшение потерь для следующего шага оптимизации. По мере оптимизации выбранные гиперпараметры сходятся к своим истинным значениям. Формальное математическое описание алгоритма можно найти в приложении к моей статье. Вот пара ссылок с примерами использования TPE и других алгоритмов оптимизации гиперпараметров в Python:

Учебник Вообана
Применение тесно связанного подхода - гауссовского процесса Бориса Б.
Байесовские алгоритмы оптимизации Юрия Шевчука в NeuPy
Учебник Давида Копчика

Я определяю целевую функцию оптимизации гиперпараметров следующим образом: для набора значений гиперпараметров я сначала оцениваю модель пять раз и выбираю пять лучших значений потерь при проверке, достигнутых каждой моделью, значение цели - это средние потери при проверке по этим параметрам. 25 ценностей. Поскольку обучение в значительной степени является стохастическим, я явно ищу архитектуры, которые могут последовательно обеспечивать более низкие потери как в каждом прогоне оценки, так и в разных прогонах. В таблице 1 представлены предыдущие распределения гиперпараметров:

Я инициализирую алгоритм с 25 оценками цели с использованием случайного поиска, а затем выполняю 700 итераций TPE. На рисунке 2 показаны средние потери в ходе оптимизации TPE: синие точки - потери лучших 50% оценок; сплошная красная линия - это расширяющийся первый дециль потерь, а пунктирная черная линия показывает минимальные потери, достигаемые для каждого шага TPE.

Со временем алгоритм последовательно предлагает лучшие конфигурации гиперпараметров. На следующем рисунке показано, как TPE регулирует распределения гиперпараметров по итерациям, отображая априорную (пунктирная черная линия) и эмпирические плотности десятичного логарифма скорости обучения (левый график) и коэффициента отсева (правый график) для первого (синим цветом) и вторая (красная) половина оптимизации TPE: распределения сходятся в сторону более низких значений скорости обучения и более высокой вероятности отсева.

Б. Оптимальный ансамбль

Нейронные сети - это алгоритмы с низким смещением и высокой дисперсией, поэтому методы уменьшения дисперсии, такие как ансамбли моделей, предлагают огромное преимущество, будучи недорогими в вычислительном отношении. Что еще более важно, вместо простого усреднения прогнозов нескольких моделей мы можем напрямую назначить оптимальный оптимальный вес прогнозам каждой составляющей ансамбля. Я выбираю 20 спецификаций моделей, которые достигли наименьших потерь при проверке во время оптимизации гиперпараметров, в качестве исходных кандидатов для ансамбля, а затем следую Caruana et al. (2004) алгоритм: начиная с ансамбля первого размера с лучшей моделью, на каждой итерации я добавляю новую модель из пула моделей (с заменой), так что среднее предсказание ансамбля дает наименьшие потери при проверке. На рисунке 4 показаны потери ансамбля при проверке на итерациях алгоритма: черная пунктирная линия соответствует потере лучшей модели, а синяя сплошная линия отображает потери ансамбля по мере продвижения оптимизации.

Примерно после двенадцати итераций алгоритм перестает рассматривать новые модели и вместо этого продолжает корректировать веса существующих компонентов. Поскольку оптимизация ансамбля требует затратных вычислений, я повторно оптимизирую ансамбль перед каждым предсказанием на тестовом наборе, используя только что доступную информацию.

V. Результаты набора тестов и интерпретируемость прогнозов

А. Результаты вне выборки

Во-первых, чтобы оценить способность модели обобщать невидимые данные, давайте посмотрим на потери тестового набора. На рисунке 5 показаны потери в ансамбле относительно потерь при проверке (пунктирная черная линия, нормализованная к 1). Красная линия показывает средний убыток на тестовом наборе, серая линия отображает средний убыток по всем акциям за каждый месяц, а синяя линия показывает 12-месячное скользящее среднее этого среднего. Что касается потерь, производительность тестового набора модели ухудшается в среднем примерно на треть процента по сравнению с проверочным набором. В этом нет ничего удивительного, учитывая, что я оценил сотни спецификаций, используя одни и те же данные валидации: чем больше спецификаций будет опробовано на валидационном наборе, тем выше вероятность того, что лучшие модели случайно превзойдут валидационный набор - о чем всегда нужно помнить. . Тем не менее расхождение небольшое. Что еще более важно, тестовые потери стабильны во времени и колеблются вокруг своего долгосрочного среднего значения.

Напомним, что модель выводит оценочные вероятности того, что доходность в следующем месяце будет выше медианной доходности по поперечному сечению. Таким образом, мы можем напрямую переводить прогнозы в инвестиционные стратегии, которые покупают акции в заданном прогнозируемом диапазоне вероятности. В таблице 2 представлена ​​описательная статистика доходности (сверх безрисковой ставки) по портфелям с равным весом для выборки из 500 крупнейших акций. Например, первая тройка столбцов содержит статистику для средних видов: портфели, инвестирующие в акции с прогнозируемой вероятностью ниже средней прогнозируемой вероятности (первый столбец); выше этой вероятности (второй столбец); и длинный-короткий портфель, где продаются акции в первом портфеле и покупаются акции во втором (третья колонка). Аналогичным образом, второй и третий триплеты сообщают статистику для портфелей с наименьшей и наибольшей прогнозируемой вероятностью с вероятностями, разделенными на квинтили и децили соответственно. Средняя, ​​медианная доходность и их стандартные отклонения выражены в процентах годовых; Коэффициенты Шарпа, измеряющие доходность на единицу принятого риска, приведены в годовом исчислении; Максимальная просадка (наихудшая полоса доходности, которую когда-либо испытывала инвестиция), максимальный месячный убыток и среднемесячный оборот выражаются в процентах. Цифры в скобках представляют собой t-статистику HAC для нулевой гипотезы о том, что средняя доходность равна нулю.

Портфель, который эффективно продает половину участников S&P 500 и инвестирует в другую половину, приносит в среднем 7,2% годовых, что является статистически значимым на любом стандартном уровне. Спрэд между высокими и низкими портфелями увеличивается по мере того, как сорта становятся более агрессивными, до 17,7% в год. за разницу в портфелях с крайними децилями. Это увеличение происходит одновременно за счет более высокой (более низкой) доходности «высокого» и «низкого» портфелей, что свидетельствует о том, что модель отражает поперечное распределение ожидаемой доходности. Годовой коэффициент Шарпа повышается с 1,11 до 1,34 для медианного и децильного сортов соответственно. Доходность портфелей также становится более искаженной для более концентрированных видов. Для сравнения: избыточная доходность фондового рынка США за тот же период составляет 7,1% годовых. с коэффициентом Шарпа 0,48 и максимальной просадкой более 50%.

На следующих рисунках показана стоимость 1 доллара, инвестированного в портфели ансамбля (в натуральном логарифме). Верхняя и нижняя части графика показывают результаты для 500 крупнейших акций и всех акций соответственно. На левой панели показаны доходности портфелей с высокими и низкими доходами, отсортированные по средней предсказанной вероятности (сплошные и пунктирные синие линии) вместе с избыточной доходностью всего фондового рынка (черным цветом). Правые панели отображают доходность длинных и коротких портфелей: медианная, квинтильная и децильная сортировки показаны синим, красным и серым цветом соответственно. Что касается выборки «все акции», результативность улучшается еще больше: например, средний спред доходности между децильными портфелями (серая линия в правом нижнем углу) увеличивается до 22,3% в год. (t-статистика 10,5) и коэффициент Шарпа превышает 2. Тем не менее, эти необработанные числа следует принимать с огромным количеством соли без тщательного анализа транзакционных издержек и проблем с торговлей.

Б. Могут ли существующие факторы риска объяснить доходность ансамблевых портфелей?

Нет, они не могут. В таблице 3 представлены результаты тестов на охват временных рядов, то есть регрессии избыточной доходности ансамблевых портфелей по пяти факторам Fama and French (2015) плюс импульсный портфель (краткое обсуждение факторов Fama-French можно найти "здесь"). Цель этих регрессий - определить, может ли доходность тестовых активов (в нашем случае нейросетевых портфелей) быть представлена ​​как линейная комбинация факторов (обычно установленных заранее инвестиционные стратегии с ненулевой доходностью, такие как премия за рыночный риск). При нулевой гипотезе тестовые активы охватываются факторами, а точки пересечения в регрессиях, или альфа, равны нулю; оценки коэффициента наклона определяют, насколько коррелированы доходность тестового актива с доходностью данного фактора.

Для каждого тестового актива (по строкам) в Таблице 3 в первом столбце указано расчетное значение пересечения α в процентах в год, в следующих шести столбцах указаны коэффициенты факторов, а в последнем столбце показано скорректированное R² регрессии. Ключевой вывод из этого упражнения заключается в том, что доходность ансамблевых портфелей не может быть отражена другими факторами риска, что дает большие и статистически значимые альфы. Доходность длинно-короткого портфеля P2-P1 по существу не коррелирует ни с одной из независимых переменных. В статье я также показываю, что этот результат справедлив для других типов портфелей и является надежным, когда набор факторов включает доходность хедж-фондов и доходность других портфелей из текущей литературы по финансовому машинному обучению.

С. Какие функции повышают производительность?

Подведем итоги того, что у нас есть на данный момент:

1. Модель хорошо обобщает результаты вне выборки и отражает поперечное распределение ожидаемой доходности.
2. Портфели, основанные на прогнозах ансамбля, генерируют высокую и статистически значимую доходность.
3. Эффективность ансамбль портфелей не коррелирует с другими инвестиционными стратегиями и установленными факторами риска.

Перескакивая через важные темы определения размера позиции и транзакционных издержек, давайте сосредоточимся на том, какие функции определяют прогнозы, как они это делают и имеет ли это смысл.

На рисунке 7 показаны частные производные от прогнозируемых вероятностей доходности акций, превышающей среднюю доходность по поперечному сечению в следующем месяце по отношению к исходным данным модели. 10 верхних и нижних 10 входных переменных, ранжированных по их среднему градиенту, расположены поперек вертикальной оси. Для данной характеристики цветные полосы и усы представляют соответственно межквартильный и 5–95% диапазон всех оценок градиента на тестовой выборке. Сплошные черные линии и точки внутри каждой полосы показывают медианное и среднее значение градиентов. Поскольку переменные нормализованы так, чтобы иметь среднее значение, равное нулю, и стандартное отклонение, равное единице, интерпретация выглядит следующим образом: при сохранении равных других параметров увеличение однолетней альфы акции на небольшое Δ относительно поперечного сечения увеличивает прогнозируемую вероятность доходность акций в следующем месяце будет выше медианы по поперечному сечению примерно на 100 × Δ%.

По сути, приведенный выше рисунок сообщает о безусловных предсказателях ожидаемой доходности. Наиболее заметными перекрестными характеристиками, предсказывающими положительную доходность, являются альфа модели рынка на горизонте от девяти месяцев до одного года, а также динамика цен за шесть месяцев и один год. Фактически, однолетняя альфа является чрезвычайно надежной: из более чем 170 000 наблюдений только два имеют отрицательные градиенты по этой переменной. Единственная переменная состояния рынка среди безусловных предикторов - это двухлетняя рыночная доходность. Помимо характеристик цены на коротком горизонте, согласующихся с краткосрочным разворотом и дискретностью информации, fip (функция, направленная на определение того, накапливается ли доходность за несколько больших скачков или за множество небольших приращений), импульс цены а альфа модели рынка на горизонте от семи до восьми месяцев являются основными предикторами низкой ожидаемой доходности. Фактически, наибольший положительный вклад ценового импульса в прогнозируемую вероятность приходится на периоды ретроспективного анализа через шесть и двенадцать месяцев, что проиллюстрировано следующим рисунком (рис. график) и альфа модели рынка (правый график) относительно их горизонтов ретроспективного анализа. Горизонты короче одного месяца объединяются в одномесячные интервалы. С другой стороны, вклад альфы возвращается к отрицательным значениям на горизонтах короче девяти месяцев. Характерной особенностью является то, что на шестимесячном горизонте градиенты обеих переменных намного выше, чем в соответствующие периоды ретроспективного анализа. В целом описанные выше эффекты согласуются с эмпирическими данными из финансовой литературы (я предоставляю подробное обсуждение со ссылками на соответствующие исследования в документе).

Если основными характеристиками, предсказывающими более высокую ожидаемую доходность, являются альфа и импульс, то почему портфели длинно-коротких ансамблей не коррелируют с инвестиционными стратегиями, использующими эти переменные, например моментумом, который использует прошлую доходность, и как портфелям удалось продемонстрировать исключительную производительность в 2008–2009 гг. Период 2009 года, когда импульс буквально накатился? Ответ: особенности взаимодействия с переменными состояния рынка.

На рисунке 9 показаны десять наибольших и наименьших средних градиентов децильного портфеля длинных и коротких позиций, отсортированных по прогнозируемым вероятностям. Интерпретация градиентов становится немного более громоздкой, например: при прочих равных небольшое изменение Δ в 10-дневной рыночной доходности в среднем увеличивает прогнозируемую вероятность акции в длинной части портфеля (или снижает вероятность ложа в короткую ногу) на 0,2 × 100 × Δ%. Несмотря на то, что многие переменные являются довольно сильными безусловными предикторами доходности, портфель нейронных сетей с короткими и длинными ставками не просто покупает альфа одного года и не продает краткосрочный импульс. Фактически, портфель не демонстрирует систематических воздействий на поперечные характеристики с величинами, аналогичными тем, которые имеют место в случае только длинной позиции. Конечно, в среднем портфель склонен делать ставки против беты, дискретности информации и краткосрочной идиосинкразической волатильности, но есть около 25% фондовых месяцев, когда эти ставки меняются. Портфель также отличается в среднем длинной рыночной волатильностью и рыночной доходностью, но опять же, различия в этих градиентах значительны. Преобладание переменных состояния рынка вместе с рассредоточенными ставками с точки зрения градиентов делает неудивительным тот факт, что классические статические факторы ценообразования активов в тестах временных рядов в Таблице 3 практически не обладают объяснительной силой для определения вариации в доходности нейросетевые портфели.

Чтобы продемонстрировать, как характеристики состояния рынка модулируют важность поперечных характеристик, я рисую разбиения гессиана длинно-короткого децильного портфеля для альфа (на рисунке 10), бета (на рисунке 11) и характеристик состояния рынка (по горизонтали). оси). По мере роста волатильности рынка важность альфы (и ценового импульса, поскольку они сильно коррелированы), измеряемого на более длинных горизонтах, снижается, а градиенты более краткосрочных альф возрастают. Обратное применимо к рыночной доходности на горизонте до трех месяцев. Другими словами, на проблемных рынках, когда доходность низкая, а волатильность высокая, модель динамически придает большее значение недавним результатам.

Для бета-версий влияние увеличения волатильности рынка в целом положительное, за исключением самых коротких горизонтов. Бета-версия получает более высокие градиенты для более длинных горизонтов, если рыночная доходность на аналогичных горизонтах выше ее долгосрочного среднего значения. Краткосрочная рыночная доходность довольно агрессивно модулирует бета, позволяя, например, напрямую использовать патологическое поведение импульса, описанное в Разделе II: когда рыночный тренд разворачивается вверх, то есть краткосрочная рыночная доходность увеличивается, градиенты прогнозы относительно бета-версии также увеличиваются, что особенно заметно для 10-дневной рыночной доходности.

VI. Заключительные замечания

Конечно, здорово иметь модели, которые превосходят традиционные подходы к финансовому прогнозированию, но суть поста более тонкая:

Прежде всего, правильная обработка данных имеет первостепенное значение в финансовом машинном обучении: помимо обеспечения качества набора данных, полезно придумать гипотезу или мысленную модель о том, какие функции должны работать и почему. Это служит, по крайней мере, двум целям: (i) специальные функции облегчают алгоритму изучение связи между входными данными и прогнозами, устраняя шум, который доминирует в необработанных данных; (ii) снимает проблему HARKING - выдвижение гипотез после того, как результаты известны - люди очень хорошо умеют обманывать себя.

Во-вторых, автоматическая оптимизация гиперпараметров не только позволяет систематически искать наиболее эффективные архитектуры, но, что более важно, также способствует воспроизводимости результатов.

В-третьих, интерпретируемость прогнозов имеет решающее значение для понимания того, как работает модель и проходят ли результаты проверку на корректность. Кроме того, очень важно понять, при каких условиях модель может потерпеть неудачу.

Комментарии и отзывы приветствуются. Спасибо за чтение.

использованная литература

Арнотт Р., Харви К. Р. и Марковиц Х. (2019). Протокол тестирования на истории в эпоху машинного обучения. The Journal of Financial Data Science, 1 (1), 64–74. Доступно на https://ssrn.com/abstract=3275654

Бергстра, Дж. С., Барденет, Р., Бенжио, Ю., и Кегл, Б. (2011). Алгоритмы гиперпараметрической оптимизации. В книге Достижения в области нейронных систем обработки информации (стр. 2546–2554).

Бергстра, Дж., Яминь, Д., и Кокс, Д. Д. (2013). Создание науки о поиске моделей: оптимизация гиперпараметров в сотнях измерений для архитектур машинного зрения.

Каруана, Р., Никулеску-Мизил, А., Крю, Г., и Ксикес, А. (2004, июль). Подбор ансамбля из библиотек моделей. В Материалы двадцать первой международной конференции по машинному обучению (стр. 18). ACM.

Дэниел, К., и Московиц, Т. Дж. (2016). Momentum тормозит. Журнал финансовой экономики, 122 (2), 221–247. Доступно на https://ssrn.com/abstract=2371227

Фама, Э. Ф., и Френч, К. Р. (2015). Пятифакторная модель ценообразования на активы. Журнал финансовой экономики, 116 (1), 1–22.