Ага! вы правильно прочитали. Я решил сделать свой первый пост на Medium и предсказать фондовый рынок (я отчетливо слышу, как закатываются глаза, когда пишу эти строки). Я взял эту идею из набора данных this в Kaggle, который содержит 25 самых популярных ежедневных новостей с 2008 по 2016 год на основе канала Reddit WorldNews. Этот набор данных также содержит метки, обозначающие, закрылся ли индекс Доу-Джонса выше или ниже в течение дня за один и тот же период времени.
Для моей первой попытки я решил использовать настроения первых 20 заголовков (а не основную часть новостей) в качестве мои особенности. Кроме того, я использовал классификатор голосования, который экспериментально дал мне наилучшую производительность. вы можете найти мою записную книжку здесь. Результаты были… ну… как бы это сказать… приемлемыми для первого удара, но всего на 2% лучше, чем у обезьяны с монеткой.

У меня есть планы продолжить и улучшить конвейер, основываясь на следующих идеях.
1) Данные обучения и тестирования сильно несбалансированы по отношению к классу 1 → для улучшения, возможно, нам следует уменьшить выборку класса 1.
2) Мы также можно разделить набор данных на основе квартала/сезона/начала года/конца года и иметь четыре разные модели для каждого периода времени.
3) Мы также можем дополнить модель BOW векторами настроений и изучить производительность. только против чистого BOW или вектора настроений.
4) Кроме того, рассматривая отложенную версию векторов настроений как функции (или даже добавляя память к функциям, например, LSTM, может быть??)

У вас есть идеи? Дайте мне знать или, что еще лучше, раскошельтесь на мой блокнот и поэкспериментируйте.