На прошлой неделе во второй раз за 3 недели моя модель предсказала победу «Нью-Йорк Джетс», и оба раза «Джетс» уходили в перерыв с преимуществом, единственные 2 раза в этом сезоне. Конечно, они проиграли обе игры, но, возможно, истинное призвание моей модели — предсказать, кто выйдет вперед в перерыве. Я слишком ленив, чтобы отслеживать это помимо игры «Джетс», но, может быть.
Результаты 9 недели:
Кроме того, благодаря сильной способности модели предсказывать преимущество «Джетс» в перерыве между таймами, модель продемонстрировала худшие результаты в сезоне, впервые упав ниже 50% до 6/14, подчеркнутую ужасной 1/6 в диапазоне 50–60%. доверительный диапазон. Это может быть как-то связано с сильным смещением модели к дому, но требуются дополнительные исследования.
К сожалению, вторая слабая производительность подряд снижает точность модели до 51,7% в сезоне, что довольно близко к случайному угадыванию. Опять же, частично виноваты слабые результаты на более низких уровнях достоверности, хотя только диапазон 70%+ работает так, как ожидалось.
Модель «против спреда», дебютировавшая на прошлой неделе, работала ненамного лучше, только правильно предсказывала 7/14 игр.
Улучшения:
На этой неделе я добавил в модель несколько новых функций: Total, Passing Yards и Rushing Yards как за, так и против обеих команд. Набор данных теперь содержит приведенные ниже столбцы из 708 игр НФЛ, сыгранных между 4–17 неделями сезона 2017–2019 гг. и 4–9 неделями сезона 2020 г.
# Column Non-Null Count Dtype --- ------ -------------- ----- 0 ID 708 non-null object 1 Season 708 non-null object 2 Home 708 non-null object 3 Away 708 non-null object 4 Home_Game 708 non-null int64 5 Away_Game 708 non-null int64 6 3_wk_avg_points_for_home 708 non-null float64 7 3_wk_avg_points_against_home 708 non-null float64 8 3_wk_avg_points_for_away 708 non-null float64 9 3_wk_avg_points_against_away 708 non-null float64 10 3_wk_avg_Total_Yards_For_home 708 non-null float64 11 3_wk_avg_Passing_Yards_For_home 708 non-null float64 12 3_wk_avg_Rushings_Yards_For_home 708 non-null float64 13 3_wk_avg_Total_Yards_Against_home 708 non-null float64 14 3_wk_avg_Passing_Yards_Against_home 708 non-null float64 15 3_wk_avg_Rushing_Yards_Against_home 708 non-null float64 16 3_wk_avg_Total_Yards_For_away 708 non-null float64 17 3_wk_avg_Passing_Yards_For_away 708 non-null float64 18 3_wk_avg_Rushings_Yards_For_away 708 non-null float64 19 3_wk_avg_Total_Yards_Against_away 708 non-null float64 20 3_wk_avg_Passing_Yards_Against_away 708 non-null float64 21 3_wk_avg_Rushing_Yards_Against_away 708 non-null float64 22 Home_win 708 non-null float64 23 Home_win_margin 708 non-null float64
Исследовательский анализ данных:
Ниже приведены корреляции для этого набора данных, как и следовало ожидать, существует некоторая сильная корреляция между ярдами и связанным с ними общим количеством очков, при этом пас имеет более сильную корреляцию с очками, чем рывок.
Ниже вы также можете видеть, что все 16 средних значений за 3 недели близки к нормальному распределению.
Имея в руках новые функции, я решил проверить, действительно ли каждая из них необходима, поэтому я проверил каждую из приведенных ниже комбинаций данных как с логистической моделью (выигрыш/проигрыш), так и с моделью линейной регрессии (маржа победы).
- Исходная комбинация: метраж не включен, только 4 балла.
- Только добавление общего количества ярдов: нужны ли нам как общие ярды, так и разбивка по пасам и рашам, эта модель проверяет, добавили ли мы только общее количество ярдов.
- Добавьте только пасовые и мчащиеся ярды: аналогично предыдущему, но на этот раз мы тестируем только разбитые ярды.
- Добавьте все: что, если важны и общий метраж, и разбивка на пас / рывок, эта модель проверит это.
Оценка логистической модели:
В предыдущей статье я разбил различные показатели, используемые для оценки логистических моделей, ниже приводится краткое изложение.
Точность: процент игр, в которых победитель был предсказан правильно.
Точность: процент игр, в которых прогнозировалась победа хозяев поля, в которых они действительно выиграли.
Напомним: процент игр, в которых хозяева действительно выиграли, модель правильно предсказала.
F1: средневзвешенное значение между точностью и полнотой.
Поскольку наша цель касается как домашних, так и выездных побед, мы будем использовать точность в качестве основного показателя.
Модель 1
Точность: 61%, точность: 66%, полнота: 69%, F1: 67%
Модель 2
Точность: 65%, точность: 69%, полнота: 75%, F1: 72%
Модель 3:
Точность: 62%, точность: 66%, полнота: 73%, F1: 69%
Модель 4:
Точность: 62%, точность: 66%, полнота: 73%, F1: 69%
Модель 2 с добавлением только общего метража берет верх здесь с наивысшей точностью по тестовым данным, интересно отметить, что модели 3 и 4, похоже, сделали одинаковые выборы.
Создание модели 2 со всеми данными приводит нас к приведенным ниже перехватам и коэффициентам.
intercept: [0.00080432] Home Points For: 0.028156868168381005 Home Points Against: -0.021751320467370553 Away Points For: -0.0539191574740061 Away Points Against: 0.017165651265242114 Home Yards For: 0.0033698613757114993 Home Yards Against: -0.0029112519492992812 Away Yards Home: -0.0013368219465336078 Away Yards Against: 0.0036100183127611195
Преимущество домашних полей (перехват) значительно меньше, чем в предыдущие недели, что, мы надеемся, приведет к улучшению результатов на этой неделе. Другое быстрое наблюдение заключается в том, что относительный эффект дополнительной точки больше, чем относительный эффект дополнительного ярда. Это очевидно, потому что в игре набирается значительно больше ярдов, чем очков.
Оценка модели линейной регрессии:
Есть несколько показателей, которые мы будем использовать ниже, чтобы определить, какая линейная модель идеальна для прогнозирования перевеса.
R-Squared: процент изменчивости в марже победы, которую можно отнести к этой модели. Как правило, чем выше, тем лучше, но слишком высокий может привести к переоснащению.
Средняя абсолютная ошибка: среднее расстояние от правильного ответа каждого прогноза. Например, если есть 2 игры, в которых хозяева выигрывают с разницей в 3 очка, а модель предсказывает победу дома в 7 очков в 1 игре и -5 в другой, MAE будет равен (4 + 8) / 2 = 6.
Среднеквадратическая ошибка: аналогична MAE, но MSE возводит ошибку в квадрат перед вычислением среднего значения, обеспечивая более высокие штрафы там, где предсказания были дальше. Таким образом, в приведенном выше примере MSE = (4² + 8²)/2 = 40.
Среднеквадратическая ошибка: Квадратный корень из MSE, RMSE преобразует значение в значение, более точно соответствующее фактическому прогнозируемому значению, своего рода средневзвешенное значение ошибок. В приведенном выше примере RMSE = sqrt (40) = 6,32.
Ниже я предоставил ниже 4 метрики для каждой модели.
Модель 1:
R²: 0,094; МАЭ: 12,12; СКО: 228,22 СКО: 15,11
Модель 2:
R²: 0,100; МАЭ: 12,14; СКО: 228,85 СКО: 15,13
Модель 3:
R²: 0,111; МАЭ: 12,16; СКО: 234,61; Среднеквадратичное отклонение: 15,32
Модель 4:
R²: 0,116; МАЭ: 12,16; СКО: 234,61; Среднеквадратичное отклонение: 15,32
Честно говоря, если вы планируете играть против спреда, игнорируйте эти прогнозы. Средняя ошибка более 12 баллов смехотворно высока. Кроме того, я просмотрел коэффициенты для каждой модели, и они, за исключением модели 1, в основном не являются статистически значимыми на уровне достоверности 95%. Хотя у модели 1 есть самый сильный аргумент в пользу лучшей модели, я буду использовать модель 2 для своих прогнозов, просто чтобы сохранить некоторую симметрию с логистической моделью, поскольку показатели между моделями 1 и 2 были не за горами.
Коэффициенты, используемые для нашего прогноза, приведены ниже, константа представляет собой смещение домашней команды.
Прогнозы:
Прогнозы против спреда (по состоянию на 00:18 четверга согласно приложению Score)
Титаны (даже) против Кольтов: Кольты
Пантеры (+5) против Буканьерс:Пантеры
Браунс (-3) против техасцев:техасцы
Лайонс (недоступно) против Вашингтона:Вашингтон
Пэкерс (-13) против Ягуаров:Ягуары
Гиганты (+3,5) против орлов:Гиганты
Дельфины (-2,5) против Чарджерс: Чарджерс
Кардиналы (-2) против Биллов:Биллы
Рейдеры (-5) против Бронкос:Бронкос
Стилерс (-7,5) против Бенгалс: Бенгалс
Рэмс (-2) против «Сихокс»:Сихокс
Сэйнтс (-9) против 49ers:49ers
Патриоты (+7) против Воронов:Патриоты
Медведи (+3) против викингов: викинги
Быстрые наблюдения:
- Модель перевеса очень консервативна, ни для одной игры на этой неделе не прогнозируется перевес выше 7,6, хотя я должен отметить, что реальные спреды имеют только 2 игры с разницей выше 7 очков, так что, возможно, это нечетная неделя.
- «Джетс» не играют на этой неделе, так что нет причин заострять на них внимание.
- На следующей неделе я буду тестировать различные формы моделей регрессии и классификации, так что следите за обновлениями, чтобы увидеть, какие из них более успешны, чем эти.
В настоящее время я участвую в программе сертификации специалистов по прикладным наукам о данных в Инженерной школе Thayer в Дартмутском колледже. Пожалуйста, свяжитесь со мной через LinkedIn (https://www.linkedin.com/in/nathanielselevan/) или оставьте комментарий ниже со всеми вопросами, комментариями, предложениями по проектам или выступите в качестве наставника. Будем признательны за лайки и комментарии.