Простой футбольный предсказатель: прогнозы на 10-ю неделю и расширенная модель

На прошлой неделе во второй раз за 3 недели моя модель предсказала победу «Нью-Йорк Джетс», и оба раза «Джетс» уходили в перерыв с преимуществом, единственные 2 раза в этом сезоне. Конечно, они проиграли обе игры, но, возможно, истинное призвание моей модели — предсказать, кто выйдет вперед в перерыве. Я слишком ленив, чтобы отслеживать это помимо игры «Джетс», но, может быть.

Результаты 9 недели:

Кроме того, благодаря сильной способности модели предсказывать преимущество «Джетс» в перерыве между таймами, модель продемонстрировала худшие результаты в сезоне, впервые упав ниже 50% до 6/14, подчеркнутую ужасной 1/6 в диапазоне 50–60%. доверительный диапазон. Это может быть как-то связано с сильным смещением модели к дому, но требуются дополнительные исследования.

К сожалению, вторая слабая производительность подряд снижает точность модели до 51,7% в сезоне, что довольно близко к случайному угадыванию. Опять же, частично виноваты слабые результаты на более низких уровнях достоверности, хотя только диапазон 70%+ работает так, как ожидалось.

Модель «против спреда», дебютировавшая на прошлой неделе, работала ненамного лучше, только правильно предсказывала 7/14 игр.

Улучшения:

На этой неделе я добавил в модель несколько новых функций: Total, Passing Yards и Rushing Yards как за, так и против обеих команд. Набор данных теперь содержит приведенные ниже столбцы из 708 игр НФЛ, сыгранных между 4–17 неделями сезона 2017–2019 гг. и 4–9 неделями сезона 2020 г.

#   Column                               Non-Null Count  Dtype  
---  ------                               --------------  -----  
 0   ID                                   708 non-null    object 
 1   Season                               708 non-null    object 
 2   Home                                 708 non-null    object 
 3   Away                                 708 non-null    object 
 4   Home_Game                            708 non-null    int64  
 5   Away_Game                            708 non-null    int64  
 6   3_wk_avg_points_for_home             708 non-null    float64
 7   3_wk_avg_points_against_home         708 non-null    float64
 8   3_wk_avg_points_for_away             708 non-null    float64
 9   3_wk_avg_points_against_away         708 non-null    float64
 10  3_wk_avg_Total_Yards_For_home        708 non-null    float64
 11  3_wk_avg_Passing_Yards_For_home      708 non-null    float64
 12  3_wk_avg_Rushings_Yards_For_home     708 non-null    float64
 13  3_wk_avg_Total_Yards_Against_home    708 non-null    float64
 14  3_wk_avg_Passing_Yards_Against_home  708 non-null    float64
 15  3_wk_avg_Rushing_Yards_Against_home  708 non-null    float64
 16  3_wk_avg_Total_Yards_For_away        708 non-null    float64
 17  3_wk_avg_Passing_Yards_For_away      708 non-null    float64
 18  3_wk_avg_Rushings_Yards_For_away     708 non-null    float64
 19  3_wk_avg_Total_Yards_Against_away    708 non-null    float64
 20  3_wk_avg_Passing_Yards_Against_away  708 non-null    float64
 21  3_wk_avg_Rushing_Yards_Against_away  708 non-null    float64
 22  Home_win                             708 non-null    float64
 23  Home_win_margin                      708 non-null    float64

Исследовательский анализ данных:

Ниже приведены корреляции для этого набора данных, как и следовало ожидать, существует некоторая сильная корреляция между ярдами и связанным с ними общим количеством очков, при этом пас имеет более сильную корреляцию с очками, чем рывок.

Ниже вы также можете видеть, что все 16 средних значений за 3 недели близки к нормальному распределению.

Имея в руках новые функции, я решил проверить, действительно ли каждая из них необходима, поэтому я проверил каждую из приведенных ниже комбинаций данных как с логистической моделью (выигрыш/проигрыш), так и с моделью линейной регрессии (маржа победы).

Исходная комбинация: метраж не включен, только 4 балла.
Только добавление общего количества ярдов: нужны ли нам как общие ярды, так и разбивка по пасам и рашам, эта модель проверяет, добавили ли мы только общее количество ярдов.
Добавьте только пасовые и мчащиеся ярды: аналогично предыдущему, но на этот раз мы тестируем только разбитые ярды.
Добавьте все: что, если важны и общий метраж, и разбивка на пас / рывок, эта модель проверит это.

Оценка логистической модели:

В предыдущей статье я разбил различные показатели, используемые для оценки логистических моделей, ниже приводится краткое изложение.

Точность: процент игр, в которых победитель был предсказан правильно.

Точность: процент игр, в которых прогнозировалась победа хозяев поля, в которых они действительно выиграли.

Напомним: процент игр, в которых хозяева действительно выиграли, модель правильно предсказала.

F1: средневзвешенное значение между точностью и полнотой.

Поскольку наша цель касается как домашних, так и выездных побед, мы будем использовать точность в качестве основного показателя.

Модель 1

Точность: 61%, точность: 66%, полнота: 69%, F1: 67%

Модель 2

Точность: 65%, точность: 69%, полнота: 75%, F1: 72%

Модель 3:

Точность: 62%, точность: 66%, полнота: 73%, F1: 69%

Модель 4:

Точность: 62%, точность: 66%, полнота: 73%, F1: 69%

Модель 2 с добавлением только общего метража берет верх здесь с наивысшей точностью по тестовым данным, интересно отметить, что модели 3 и 4, похоже, сделали одинаковые выборы.

Создание модели 2 со всеми данными приводит нас к приведенным ниже перехватам и коэффициентам.

intercept:  [0.00080432]
Home Points For:  0.028156868168381005
Home Points Against:  -0.021751320467370553
Away Points For:  -0.0539191574740061
Away Points Against:  0.017165651265242114
Home Yards For:  0.0033698613757114993
Home Yards Against:  -0.0029112519492992812
Away Yards Home:  -0.0013368219465336078
Away Yards Against:  0.0036100183127611195

Преимущество домашних полей (перехват) значительно меньше, чем в предыдущие недели, что, мы надеемся, приведет к улучшению результатов на этой неделе. Другое быстрое наблюдение заключается в том, что относительный эффект дополнительной точки больше, чем относительный эффект дополнительного ярда. Это очевидно, потому что в игре набирается значительно больше ярдов, чем очков.

Оценка модели линейной регрессии:

Есть несколько показателей, которые мы будем использовать ниже, чтобы определить, какая линейная модель идеальна для прогнозирования перевеса.

R-Squared: процент изменчивости в марже победы, которую можно отнести к этой модели. Как правило, чем выше, тем лучше, но слишком высокий может привести к переоснащению.

Средняя абсолютная ошибка: среднее расстояние от правильного ответа каждого прогноза. Например, если есть 2 игры, в которых хозяева выигрывают с разницей в 3 очка, а модель предсказывает победу дома в 7 очков в 1 игре и -5 в другой, MAE будет равен (4 + 8) / 2 = 6.

Среднеквадратическая ошибка: аналогична MAE, но MSE возводит ошибку в квадрат перед вычислением среднего значения, обеспечивая более высокие штрафы там, где предсказания были дальше. Таким образом, в приведенном выше примере MSE = (4² + 8²)/2 = 40.

Среднеквадратическая ошибка: Квадратный корень из MSE, RMSE преобразует значение в значение, более точно соответствующее фактическому прогнозируемому значению, своего рода средневзвешенное значение ошибок. В приведенном выше примере RMSE = sqrt (40) = 6,32.

Ниже я предоставил ниже 4 метрики для каждой модели.

Модель 1:

R²: 0,094; МАЭ: 12,12; СКО: 228,22 СКО: 15,11

Модель 2:
R²: 0,100; МАЭ: 12,14; СКО: 228,85 СКО: 15,13

Модель 3:
R²: 0,111; МАЭ: 12,16; СКО: 234,61; Среднеквадратичное отклонение: 15,32

Модель 4:
R²: 0,116; МАЭ: 12,16; СКО: 234,61; Среднеквадратичное отклонение: 15,32

Честно говоря, если вы планируете играть против спреда, игнорируйте эти прогнозы. Средняя ошибка более 12 баллов смехотворно высока. Кроме того, я просмотрел коэффициенты для каждой модели, и они, за исключением модели 1, в основном не являются статистически значимыми на уровне достоверности 95%. Хотя у модели 1 есть самый сильный аргумент в пользу лучшей модели, я буду использовать модель 2 для своих прогнозов, просто чтобы сохранить некоторую симметрию с логистической моделью, поскольку показатели между моделями 1 и 2 были не за горами.

Коэффициенты, используемые для нашего прогноза, приведены ниже, константа представляет собой смещение домашней команды.

Прогнозы:

Прогнозы против спреда (по состоянию на 00:18 четверга согласно приложению Score)

Титаны (даже) против Кольтов: Кольты

Пантеры (+5) против Буканьерс:Пантеры

Браунс (-3) против техасцев:техасцы

Лайонс (недоступно) против Вашингтона:Вашингтон

Пэкерс (-13) против Ягуаров:Ягуары

Гиганты (+3,5) против орлов:Гиганты

Дельфины (-2,5) против Чарджерс: Чарджерс

Кардиналы (-2) против Биллов:Биллы

Рейдеры (-5) против Бронкос:Бронкос

Стилерс (-7,5) против Бенгалс: Бенгалс

Рэмс (-2) против «Сихокс»:Сихокс

Сэйнтс (-9) против 49ers:49ers

Патриоты (+7) против Воронов:Патриоты

Медведи (+3) против викингов: викинги

Быстрые наблюдения:

Модель перевеса очень консервативна, ни для одной игры на этой неделе не прогнозируется перевес выше 7,6, хотя я должен отметить, что реальные спреды имеют только 2 игры с разницей выше 7 очков, так что, возможно, это нечетная неделя.
«Джетс» не играют на этой неделе, так что нет причин заострять на них внимание.
На следующей неделе я буду тестировать различные формы моделей регрессии и классификации, так что следите за обновлениями, чтобы увидеть, какие из них более успешны, чем эти.

В настоящее время я участвую в программе сертификации специалистов по прикладным наукам о данных в Инженерной школе Thayer в Дартмутском колледже. Пожалуйста, свяжитесь со мной через LinkedIn (https://www.linkedin.com/in/nathanielselevan/) или оставьте комментарий ниже со всеми вопросами, комментариями, предложениями по проектам или выступите в качестве наставника. Будем признательны за лайки и комментарии.

Простой футбольный предсказатель: прогнозы на 10-ю неделю и расширенная модель

Вопросы по теме