Винный Инвестинг
Прогнозирование фондового рынка с помощью машинного обучения. Вступление.
Постановка проблемы и подход.
Эта статья знаменует собой начало моего пути к поиску сигнала на финансовых рынках, где я использую различные статистические методы и машинное обучение для анализа фондового рынка и выявления привлекательных инвестиции.
Путешествие в тысячу миль начинается с одного шага
Если вы не уверены, почему я ищу сигнал сам, а не иду к экспертам, взгляните на эту статью: О том, как элита посредственна.
Финансовые данные
Для этого исследования я собираюсь использовать исторические финансовые данные с www.vhinny.com. Их Alpha Dataset предоставляет фундаментальные финансовые данные, такие как баланс, отчет о прибылях и убытках и отчет о движении денежных средств, за 8+ лет, начиная с 2011 года, для компаний S & P500.
Задача
Моя цель - найти корреляцию между некоторыми характеристиками, которые я могу измерить о компании, и ценой акций. Однако разумный инвестор мог бы заметить, что цена акций не совсем связана с эффективностью бизнеса. Вместо этого на него могут влиять многочисленные факторы, такие как крупные и мелкие экономические события, общественное мнение, ожидания изменений, новые тенденции в продуктах, новые тенденции в поведении потребителей и многие другие.
Это оставляет меня в комнате, полной шума и статистических предубеждений из-за существования факторов, которые я не могу измерить. Оставаясь верным своей цели, я собираюсь пока оставить в поле зрения этого заведомо сильного оппонента, прогноз цен на акции, и сосредоточиться на прогнозировании области, в которой у меня будет больше контроля - дохода в следующем году. Я вернусь к прогнозированию курса акций, как только создам прочную основу в своем понимании того, что движет рынком.
Доход в следующем году - задача более простая, поскольку она напрямую связана с фундаментальными показателями компании. Это хорошее место, чтобы начать знакомство с данными и посмотреть, имеет ли финансовая информация какую-либо прогностическую силу, когда дело доходит до прогнозирования финансовых результатов.
Определение цели
Прогнозирую доход в следующем году. Чтобы иметь постоянную цель, я собираюсь прогнозировать годовой рост дохода, а не сам доход. Таким образом, мои прогнозы будут одинаковыми для всех компаний, независимо от их размера.
На следующей гистограмме показано распределение роста доходов компаний S & P500 за последние 8 лет.
Ось X представляет собой годовой рост дохода, определяемый как отношение изменения чистой прибыли между текущим и предыдущим годом, деленное на доход предыдущего года. Ось Y показывает, какой процент данных занимает каждая ячейка.
Мы видим, что пик этой гистограммы выше 0, что отражает среднее 0,20 и медианное 0,05. Это имеет интуитивный смысл, потому что фондовый рынок находится на непрерывном подъеме после кризиса 2008 года, что указывает на процветающую экономику для роста бизнеса.
Регрессия против классификации
Я лично предпочитаю решать задачи классификации регрессии из-за их высокой интерпретируемости показателей оценки. Для меня принятие решений на основе кривых Lift, PR и ROC более просто, чем принятие решений на основе оценок R2. Итак, я собираюсь сделать это проблемой классификации.
Чтобы быть более точным, я собираюсь решить пять (5) задач классификации и посмотреть, какую из них я могу решить лучше. Я собираюсь предсказать, собирается ли компания
- Уменьшите доход не более чем на 100% или увеличьте его
- Уменьшите доход не более чем на 50% или увеличьте его
- Увеличьте свой доход минимум на 0%
- Увеличьте свой доход минимум на 50%
- Увеличьте свой доход как минимум на 100%
Я также собираюсь оставить цели не исключающими друг друга, что означает, например, что «увеличение не менее чем на 50%» также будет соответствовать предыдущим 3 классам.
Гистограмма ниже показывает распределение целей по классам.
Обратите внимание, как корзины постепенно уменьшаются. Это связано с тем, что каждый следующий интервал содержит данные из предыдущего интервала без выборок, которые не удовлетворяют более строгим условиям следующего интервала. Например, «100%› »- самое строгое условие. Поэтому здесь наименьшее количество примеров. В то же время компании в этом контейнере удовлетворяют условиям всех предыдущих контейнеров. Следовательно, они также могут появиться в качестве примеров для более ранних бункеров.
Продолжение следует
На этом я закончу знакомство с проблемой, которую я собираюсь решить. В следующей статье Прогнозирование фондового рынка с помощью машинного обучения. Бенчмаркинг , я использую модель случайного леса, чтобы спрогнозировать доход на следующий год. Увидимся там.
Давайте подключимся!
Я счастлив общаться с людьми, которые разделяют мой путь - стремление к финансовой независимости. Если вы также стремитесь к финансовой независимости или хотите сотрудничать, высказывать идеи или обмениваться мыслями, не стесняйтесь обращаться к нам! Вот некоторые ресурсы, которыми я управляю:
- Www.vhinny.com - платформа инвестиционных исследований, которая предоставляет финансовые данные для вашего собственного анализа.
- Https://www.linkedin.com/company/vhinny - присоединяйтесь к нашему сообществу в LinkedIn, где я и другие участники делимся контентом, связанным с инвестициями.
Ваше здоровье!