Аннотация

Возникающие инновации алгоритмов машинного обучения позволили более широко использовать данные и функции для прогнозирования движения финансового рынка. Эта статья направлена ​​на обсуждение статистического арбитража с альтернативными данными.

Введение

В отличие от традиционных данных, альтернативные данные позволяют аналитику получить доступ к более широкому спектру источников данных в режиме реального времени, таких как ночные твиты и блоги. Напротив, традиционные данные часто имеют ретроспективный характер, например, нечастое раскрытие годового отчета. Другие подсказки доказали, что альтернативные данные оказывают сильное влияние на торговлю. Например, твиты Илона Маска оказали влияние на акции Tesla, а обзоры веб-сайтов предсказывают ожидания рынка в отношении компании. Таким образом, если мы зафиксируем корреляцию между этими альтернативными данными и движением акций, мы сможем заранее предсказать тренд и получить аномальную доходность.

Сценарий 1

В исследовательской работе Стратегия портфеля с использованием рейтингов бизнес-перспектив Glassdoor профессор Сноу обсудил влияние корректировок бизнес-перспектив на управление портфелем на основе наборов данных Glassdoor, которые предоставили сотрудникам представление о перспективах компании в режиме реального времени и показали, могут ли сотрудники использовать «инсайдерскую» информацию для формирования прибыльных инвестиционных стратегий.

Методология

Во-первых, на основе восходящих и нисходящих изменений в перспективе профессор Сноу классифицировал данные на положительные и отрицательные изменения в прогнозах и разделил портфели длинных и коротких позиций на фирмы с ухудшающимся прогнозом и фирмы с улучшающимся прогнозом, чтобы наблюдать за их аномальной доходностью по сравнению с эталонным портфелем. чтобы увидеть, являются ли корректировки своевременной информацией для инвесторов. Данные ежедневно выбирались из обзоров Glassdoor о компаниях, входящих в список Fortune 1000 за 2015 год, потому что в крупных компаниях достаточно вкладов сотрудников, что приводит к меньшему количеству шума для метрики. После этого для надежности модели профессор Сноу применил метод повторной балансировки с перекрытием для построения составляющих портфеля и сравнил доходность по дням с корректировками прогноза, чтобы увидеть, пользуются ли сотрудники «инсайдерской» информацией.

Эмпирический результат показал, что чрезмерная доходность портфеля улучшающейся фирмы имела в семь раз меньшую величину отрицательной доходности, чем ухудшающаяся после корректировки. Затем он проверил надежность результатов для переменных, выбранных как взвешенных по значению, так и равновзвешенных, в таблицах описательной статистики. Необработанные доходы и t-статистика, приведенные ниже, продемонстрировали особенность того, что хорошие новости часто достигают рынка быстрее, а плохие новости часто откладываются при распространении.

Надежность

Эффект также может быть показан на бета и альфа для ребалансировки перед BOA.

Кроме того, подпортфель крупных фирм превосходит всю выборку и подвыборку малых фирм, что подтверждает высказанную ранее мысль о том, что крупные фирмы более информационны (Snow, 2016). Тенденция портфелей в цифрах стоимости портфеля подтверждает гипотезу о том, что стремление к портфелю с улучшающимся прогнозом и продажа портфеля с ухудшающимся прогнозом будут увеличивать стоимость.

Чтобы дополнительно проверить эффективность портфеля, профессор Сноу использовал CAPM для измерения доходности с поправкой на риск через восемь дней после даты корректировки бизнес-перспектив, чтобы получить результат без учета рыночной чувствительности. По результатам регрессии МНК профессор Сноу пришел к выводу, что коэффициент CAPM для ухудшающегося портфеля больше, чем для улучшающегося портфеля, а это означает, что корректировки прогноза в сторону понижения вызывают более сильную реакцию, чем корректировки прогноза в сторону повышения (Snow, 2016).

После проведения нескольких тестов на надежность исследование документа пришло к выводу, что существуют прибыльные долгосрочные и краткосрочные возможности с отзывами сотрудников о Glassdoor. Однако нельзя определить какие-либо конкретные закономерности взаимосвязи между доходностью акций и отзывами (Snow, 2016). Возможный вывод может быть связан с такими ограничениями, как ненадежные данные со стороны улучшения перспектив из-за манипуляций со стороны работодателей и, таким образом, был искажен (Snow, 2016). Другая возможная причина — размер выборки, поскольку на Glassdoor есть обзоры более 540 000 фирм. Однако при включении большего количества выборок возникнет больше проблем, потому что не все фирмы имеют достаточно отзывов для корректировки прогноза. Несмотря на все ограничения, применение альтернативных данных оказалось важным для прогнозирования рынка.

Необходимы дополнительные исследования для решения проблем, связанных с альтернативными данными, такими как неправильный ввод данных и разреженность данных, особенно после проведения одноразового кодирования для категориальных признаков. К счастью, есть одно возможное решение одной из этих проблем. Во время моей стажировки в качестве аналитика данных в Tencent Technology Co., Ltd у меня была возможность изучить ряд алгоритмов машинного обучения, называемых машиной факторизации (FM). Он широко применяется в рекомендательной системе целевой рекламы благодаря своим характеристикам, позволяющим оценивать параметры в условиях разреженности данных.

Машина факторизации

Основываясь на модели линейной регрессии, машина факторизации импортирует термин перекрестного признака как:

(второго порядка).

(SVM с линейным ядром)

В последней части уравнения используется матричная факторизация для перекомпоновки веса

ij в скалярное произведение ‹vi, vj›, что уменьшает независимость функций и позволяет взаимодействовать функциям при условии, что либо xi, либо xj равно нулю после горячего кодирования, и превосходит метод опорных векторов (SVM), который требует, чтобы обе функции были ненулевое значение.

Номер столбца k в матрице v также считается существенным фактором для выражения сложности взаимодействия. Такие характеристики позволяют модели более эффективно изучать корреляции между функциями при прогнозировании цели и, таким образом, расширять потенциальное применение альтернативных данных.

Пример:

Например, когда мы пытаемся проанализировать взаимосвязь между обзорами компаний и фондовым рынком, мы понимаем, что в большинстве случаев положительные отзывы отражают восходящий прогноз, вызывающий импульсный эффект на фондовом рынке, а в остальном — наоборот. Также будет значимым, если мы выясним взаимосвязь между особенностями положительных отзывов и мировоззрением компаний.

Сценарий 2

Вдохновленный машиной факторизации, я задаюсь вопросом, можно ли применить ее превосходство в области финансов. В статье Прогнозы финансового рынка с помощью факторизационных машин: торговля в часы открытия на основе ночных данных социальных сетей обсуждается, как финансовые аналитики прогнозируют цену акций, используя данные твитов. Документ имеет схожие аспекты с документом профессора Сноу, но с данными за ночь в Твиттере и другими моделями.

Методология

Во-первых, данные исследования содержат 10 миллионов твитов о компаниях S&P 500 с января 2014 года по декабрь 2015 года и их поминутную стоимость. Затем авторы делят данные на 473 перекрывающихся периода исследования.

Каждый период охватывает 30 дней формирования и один последовательный торговый день. Целью периода формирования является определение наиболее подходящих акций для торгового дня путем извлечения качественной информации из твитов и преобразования их в матрицу терминов документов X, где строки представляют собой количество твитов, а столбцы — все термины, содержащие основу. Затем адаптируем твиты к соответствующей будущей доходности в течение 15 минут после открытия фондового рынка в качестве целевого вектора y. Затем передайте данные четырем моделям: SVM, FM второго порядка, FM третьего порядка и FM адаптивного порядка и выберите акции для торгового дня с минимальной ошибкой между прогнозируемой и фактической доходностью. SVM описывает только наивную связь между условиями и будущими доходами. В то же время FM позволяют модели узнать количество связей между терминами в возрастающих порядках, так что третий порядок описывает взаимодействие в трех членах. Таким образом, поиск наиболее подходящего порядка FM становится решающим для оптимизации производительности, и вводятся FM с адаптивным порядком (AFM). АСМ работает в следующих последовательных шагах: нахождение модели наивысшего d-го порядка с наименьшей ошибкой в ​​рамках 10-кратной процедуры перекрестной проверки, выбор наилучшего гиперпараметра k для сложности взаимодействия, оптимизация параметра модели с помощью цепи Маркова Монте-Карло (MCMC). ) способ сэкономить усилия на поиске дополнительного гиперпараметра, такого как скорость обучения. Затем, в торговый день, автор вычисляет доходность овернайт y0 каждой выбранной акции с 16:00 до 9:30 и вычитает ее из среднего прогнозируемого дохода на твит m с 16:00 до 9:45, чтобы получить доход в течение через 15 минут после открытия рынка.

Это позволяет автору уловить влияние твитов на будущую доходность акций. Наконец, автор сравнивает прибыль со стоимостью сделки и факторами риска. Если доход больше, чем стоимость транзакции, нам нужно выполнить длинный ордер и наоборот. Для надежности теста автор проверяет прибыльность различных моделей в условиях рыночных трений, разных временных рамок и компонентов риска.

Надежность

Все тесты показывают, что AFM имеет более надежную работу, чем другие модели. Средняя дневная доходность превосходит лучшую бутстрап-трейдинг из миллиона случайных бутстрапов на 0,04% (Stubinger et al., 2018). В результате автор демонстрирует эффективность своей стратегии и отмечает, что возрастающая сложность FM приводит к более высокой отдаче.

Заключение

Несмотря на то, что АСМ превосходит другие модели, его показатель точности составляет всего 61,76%, что означает, что есть еще много возможностей для улучшения альтернативных приложений данных. Таким образом, интересно видеть больше факторов, учитываемых в инновациях машинного обучения с альтернативными данными.

Ссылка

· Сноу, Д. (н.д.). B. альтернативные данные. Получено 18 апреля 2022 г. с https://www.ml-quant.com/828628c3-53b5-4bc3-a044-ca789160c0e8.

· Сноу, Д. (2020, 21 января). Стратегия портфолио с использованием рейтингов перспектив бизнеса Glassdoor. ССРН. Получено 18 апреля 2022 г. с https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3484300.

· Рендл, Штеффен. (2010). Машины факторизации — 國立臺灣大學. Получено 18 апреля 2022 г. с https://www.csie.ntu.edu.tw/~b97053/paper/Rendle2010FM.pdf.

· Стубингер, Дж., Уолтер, Д., и Нолл, Дж. (2018). 28© 2018 Conscientia Beam. Все права защищены. ПРОГНОЗЫ ФИНАНСОВОГО РЫНКА С ФАКТОРИЗАЦИОННЫМИ МАШИНАМИ: ТОРГОВЛЯ В ЧАС РАБОТЫ НА ОСНОВЕ НОЧНЫХ ДАННЫХ СОЦИАЛЬНЫХ СЕТЕЙ. Просмотр прогнозов финансового рынка с помощью факторизационных машин: торговля в час открытия на основе данных социальных сетей за ночь. Получено 18 апреля 2022 г. с https://archive.conscientiabeam.com/index.php/29/article/view/1610/2237.