Винный Инвестинг

Прогнозирование фондового рынка с помощью машинного обучения. Вступление.

Постановка проблемы и подход.

Эта статья знаменует собой начало моего пути к поиску сигнала на финансовых рынках, где я использую различные статистические методы и машинное обучение для анализа фондового рынка и выявления привлекательных инвестиции.

Путешествие в тысячу миль начинается с одного шага

Если вы не уверены, почему я ищу сигнал сам, а не иду к экспертам, взгляните на эту статью: О том, как элита посредственна.

Финансовые данные

Для этого исследования я собираюсь использовать исторические финансовые данные с www.vhinny.com. Их Alpha Dataset предоставляет фундаментальные финансовые данные, такие как баланс, отчет о прибылях и убытках и отчет о движении денежных средств, за 8+ лет, начиная с 2011 года, для компаний S & P500.

Задача

Моя цель - найти корреляцию между некоторыми характеристиками, которые я могу измерить о компании, и ценой акций. Однако разумный инвестор мог бы заметить, что цена акций не совсем связана с эффективностью бизнеса. Вместо этого на него могут влиять многочисленные факторы, такие как крупные и мелкие экономические события, общественное мнение, ожидания изменений, новые тенденции в продуктах, новые тенденции в поведении потребителей и многие другие.

Это оставляет меня в комнате, полной шума и статистических предубеждений из-за существования факторов, которые я не могу измерить. Оставаясь верным своей цели, я собираюсь пока оставить в поле зрения этого заведомо сильного оппонента, прогноз цен на акции, и сосредоточиться на прогнозировании области, в которой у меня будет больше контроля - дохода в следующем году. Я вернусь к прогнозированию курса акций, как только создам прочную основу в своем понимании того, что движет рынком.

Доход в следующем году - задача более простая, поскольку она напрямую связана с фундаментальными показателями компании. Это хорошее место, чтобы начать знакомство с данными и посмотреть, имеет ли финансовая информация какую-либо прогностическую силу, когда дело доходит до прогнозирования финансовых результатов.

Определение цели

Прогнозирую доход в следующем году. Чтобы иметь постоянную цель, я собираюсь прогнозировать годовой рост дохода, а не сам доход. Таким образом, мои прогнозы будут одинаковыми для всех компаний, независимо от их размера.

На следующей гистограмме показано распределение роста доходов компаний S & P500 за последние 8 лет.

Ось X представляет собой годовой рост дохода, определяемый как отношение изменения чистой прибыли между текущим и предыдущим годом, деленное на доход предыдущего года. Ось Y показывает, какой процент данных занимает каждая ячейка.

Мы видим, что пик этой гистограммы выше 0, что отражает среднее 0,20 и медианное 0,05. Это имеет интуитивный смысл, потому что фондовый рынок находится на непрерывном подъеме после кризиса 2008 года, что указывает на процветающую экономику для роста бизнеса.

Регрессия против классификации

Я лично предпочитаю решать задачи классификации регрессии из-за их высокой интерпретируемости показателей оценки. Для меня принятие решений на основе кривых Lift, PR и ROC более просто, чем принятие решений на основе оценок R2. Итак, я собираюсь сделать это проблемой классификации.

Чтобы быть более точным, я собираюсь решить пять (5) задач классификации и посмотреть, какую из них я могу решить лучше. Я собираюсь предсказать, собирается ли компания

  • Уменьшите доход не более чем на 100% или увеличьте его
  • Уменьшите доход не более чем на 50% или увеличьте его
  • Увеличьте свой доход минимум на 0%
  • Увеличьте свой доход минимум на 50%
  • Увеличьте свой доход как минимум на 100%

Я также собираюсь оставить цели не исключающими друг друга, что означает, например, что «увеличение не менее чем на 50%» также будет соответствовать предыдущим 3 классам.

Гистограмма ниже показывает распределение целей по классам.

Обратите внимание, как корзины постепенно уменьшаются. Это связано с тем, что каждый следующий интервал содержит данные из предыдущего интервала без выборок, которые не удовлетворяют более строгим условиям следующего интервала. Например, «100%› »- самое строгое условие. Поэтому здесь наименьшее количество примеров. В то же время компании в этом контейнере удовлетворяют условиям всех предыдущих контейнеров. Следовательно, они также могут появиться в качестве примеров для более ранних бункеров.

Продолжение следует

На этом я закончу знакомство с проблемой, которую я собираюсь решить. В следующей статье Прогнозирование фондового рынка с помощью машинного обучения. Бенчмаркинг , я использую модель случайного леса, чтобы спрогнозировать доход на следующий год. Увидимся там.

Давайте подключимся!

Я счастлив общаться с людьми, которые разделяют мой путь - стремление к финансовой независимости. Если вы также стремитесь к финансовой независимости или хотите сотрудничать, высказывать идеи или обмениваться мыслями, не стесняйтесь обращаться к нам! Вот некоторые ресурсы, которыми я управляю:

  • Www.vhinny.com - платформа инвестиционных исследований, которая предоставляет финансовые данные для вашего собственного анализа.
  • Https://www.linkedin.com/company/vhinny - присоединяйтесь к нашему сообществу в LinkedIn, где я и другие участники делимся контентом, связанным с инвестициями.

Ваше здоровье!