Метамаркировка и двойственность между факторами поперечного сечения и временного ряда

Эрнест Чан и Акшай Наутиал

Функции — это входные данные для моделей машинного обучения с учителем (ML). В традиционных финансах их обычно называют «факторами», и они используются в моделях линейной регрессии либо для объяснения, либо для прогнозирования доходов. В первом случае факторы действуют одновременно с целевой доходностью, тогда как во втором случае факторы должны относиться к предыдущему периоду.

Обычно существует два типа факторов: перекрестные и временные ряды. Если вы моделируете доходность акций, поперечные факторы — это переменные, характерные для отдельной акции, такие как ее доходность, дивидендная доходность и т. д. В нашем предыдущем сообщении в блоге мы описали, как мы предоставляем 40 таких факторов для нашей подписчиков для тестирования на истории и прогнозов в реальном времени. Но поскольку мы выступаем за использование машинного обучения для целей управления рисками и распределения капитала (т. е. метамаркировки), а не для предсказания доходности, вы можете задаться вопросом, как эти факторы могут помочь предсказать доходность вашей торговой стратегии или портфеля. Например, если у вас есть портфель длинных и коротких акций технологических компаний, таких как AAPL, GOOG, AMZN и т. д., и вы хотите предсказать, будет ли портфель в целом прибыльным при определенном рыночном режиме, действительно ли имеет смысл имеют доходность AAPL, GOOG и AMZN как отдельные характеристики?

Между тем, факторы временного ряда обычно представляют собой общерыночные или макроэкономические переменные, такие как знакомые 3 фактора Фамы-Френча: рынок (просто доходность рыночного индекса), SMB (относительная доходность акций с малой капитализацией по сравнению с акциями с большой капитализацией) и HML (относительная доходность по сравнению с акциями роста). Эти факторы временного ряда идеально подходят для метамаркировки, поскольку их можно использовать для прогнозирования доходности вашего портфеля или стратегии.

Учитывая, что существует гораздо больше очевидных факторов поперечного сечения, чем доступных факторов временного ряда, жаль, что мы не можем использовать факторы поперечного сечения в качестве признаков для метамаркировки. На самом деле, мы можем — Юджин Фама и Кен Френч сами показали нам, как это сделать. Если у нас есть фактор поперечного сечения акции, все, что нам нужно сделать, это использовать его для ранжирования акций, сформировать портфель длинных и коротких позиций, используя ранжирование, и использовать доходность этого портфеля в качестве фактора временного ряда. Длинно-короткий портфель называется хедж-портфелем.

Мы показываем процесс создания хедж-портфеля на примере, начиная с фундаментальных поперечных факторов Шарадара (которые мы сгенерировали, как показано в блоге). Существует 40 факторов поперечного сечения, обновляемых с тремя различными периодами — ежеквартально, ежегодно и за двенадцать месяцев. Однако в этом упражнении мы используем только квартальные коэффициенты поперечного сечения. Учитывая такой фактор, как капитальные затраты (капитальные затраты), мы рассматриваем нормализованные (процедура нормализации находится в ранее цитированном сообщении в блоге) капитальные затраты примерно 8500 акций в определенные даты с 1 января 2010 года по текущую дату. Каждый год есть 4 особые даты — 15 января, 15 апреля, 15 июля и 15 октября. Мы называем их датами ранжирования. На каждую из этих дат мы находим процентильный ранг акций на основе нормализованных капиталовложений. Даты выбираются тщательно, чтобы отразить изменения в факторах поперечного сечения максимального количества акций после ежеквартальных отчетов.

После ранжирования капиталовложений по акциям на каждую дату ранжирования (4 даты) каждый год мы получаем акции, находящиеся в верхнем квартиле (т. е. выше 75 процентиля), и акции, находящиеся в нижнем квартиле (т. е. ниже 25 процентиля). Мы занимаем длинную позицию по тем, которые показали самые высокие нормализованные капиталовложения, и открываем короткую позицию по тем, у которых самые низкие. Оба эти набора вместе составляют наш портфель хеджирования длинных и коротких позиций.

Когда у нас есть портфель на определенную дату ранжирования, мы генерируем ежедневную доходность портфеля, используя распределение паритета риска (т.е. распределяем пропорционально обратной волатильности). Ежедневная доходность каждой выбранной акции рассчитывается за каждый день до следующей даты ранжирования. Веса портфеля на каждый день представляют собой нормализованную обратную величину скользящего стандартного отклонения доходности за двухмесячный период. Эти веса меняются ежедневно и умножаются на ежедневную доходность отдельных акций, чтобы получить ежедневную доходность портфеля. Если акции портфеля исключаются из листинга между датами ранжирования, мы просто исключаем акции и не используем их для расчета доходности портфеля. Ежедневные доходы, полученные в этом процессе, являются факторами временного ряда капиталовложений. Этот процесс повторяется для всех других факторов поперечного сечения Шарадара.

Итак, вуаля! 40 факторов поперечного сечения становятся 40 факторами временных рядов, и их можно использовать для метамаркировки любого портфеля или торговой стратегии, будь то торговля акциями, фьючерсами, форекс или чем-либо вообще.

А обратное преобразование? Можем ли мы превратить факторы временного ряда в факторы поперечного сечения, подходящие для прогнозирования доходности отдельных акций? На самом деле в этом нет необходимости. Вы можете напрямую добавить любой фактор временного ряда в свой набор функций для прогнозирования доходности отдельных акций. Это эквивалентно построению линейной факторной модели с доходностью отдельной акции в качестве зависимой переменной и фактором временного ряда в качестве независимой переменной, процесс, хорошо известный в традиционных финансах.

На заметку: помимо этих 40 функций временных рядов (и соответствующих им кросс-секционных) мы скомпилировали дополнительные 197 проприетарных функций временных рядов, доступных для наших Премиум-подписчиков и доступных через наш API.

Для получения дополнительной информации о нашей работе посетите www.predictnow.ai

Об авторах:

Эрни — известный управляющий хедж-фонда и автор статей по количественному финансированию. Ранее он применял свой опыт в области машинного обучения IBM T.J. Группа технологий человеческого языка исследовательского центра Watson, группа интеллектуального анализа данных и искусственного интеллекта Morgan Stanley и Horizon Trading Group Credit Suisse.

Акшай — количественный аналитик в PredictNow.ai, работающий на стыке машинного обучения и финансов.