Использование машинного обучения для прогнозирования побед команд НБА (часть 2)

*** Это статья, которая должна была быть опубликована в июле 2021 года. Этого не произошло. Жизнь не всегда идет по плану!***

Финал НБА уже завершился, а это означает, что эта статья давно запоздала. Тем не менее, мы снова здесь.

Тем не менее, давайте начнем эту вечеринку и вернем поезд в нужное русло!

Введение

В часть 1 я описал свой обобщенный сценарий для извлечения данных о командах НБА с сайта basketball-reference.com. После этого я сделал прогнозы результатов регулярного сезона 2021 года на основе двух простых моделей: линейной регрессии и парной нейронной сети.

Важный вопрос был (и остается), в какой степени сухие цифры, касающиеся атаки и защиты команды, могут предсказать, сколько игр она выиграет?

В последующих разделах я буду оценивать результаты первой части исходя из того, сколько побед каждая команда фактически одержала к концу сезона.

Затем я повторно запускаю модели с актуальными данными о наступлении и обороне, чтобы оценить эффективность моего моделирования и проверить, будут ли обновленные данные давать более точные результаты.

Результаты модели (февраль)

В первой части этой серии я говорил о том, как могут выглядеть приемлемые основания для оценки результатов моделирования. Для обзора я оценил производительность модели на основе двух факторов:

1. Насколько среднее количество побед, предсказанное для всех команд, было близко к идеальным 36,0.

2. Диапазон выигрышей, предсказанный каждой моделью.

Для получения дополнительной информации об этих двух квалификаторах ознакомьтесь с частью 1!

Однако в этой итерации серии я еще больше усовершенствую свой анализ с помощью третьего показателя производительности модели. На самом деле, я придумал систему начисления очков, основанную на том, насколько каждый прогноз был близок к фактическому результату регулярного сезона.

Ниже приведен ключ для этой балльной системы. Он имеет цветовую кодировку на основе графиков ниже-ниже.

Синий (0 побед, верное предположение): 4 балла

Зеленый (от 1 до 3 побед): 3 балла

Желтый (от 4 до 6 побед): 2 балла

Оранжевый (7–9 побед): 1 очко

Красный (10-.. выигрывает): 0 баллов

Не обязательно запоминать эту часть дословно — с этого момента я буду говорить о баллах каждой модели более целостно.

А теперь самое интересное!

Ниже приведена диаграмма, демонстрирующая, насколько точно каждая модель (работавшая в феврале) предсказала результаты регулярного сезона НБА. (Цветовая кодировка в сочетании с вышеуказанной системой баллов). Столбец "Прогнозируемые победы" показывает, сколько побед одержит команда. Столбец "Фактические победы" показывает, сколько побед эта команда на самом деле одержала к концу сезона. В верхней части каждой диаграммы есть фраза, которая говорит нам, с каким набором данных была запущена эта модель. Первые два выполняются с набором данных за 20 лет, 2000–2020 гг., а два нижних — с набором данных за 10 лет, 2010–2020 гг.

Фу! Это было много, чтобы прочитать.

Независимо от того, прошли ли вы через все это или нет, в следующем разделе я несколько ясно покажу цифры каждой модели и расскажу, почему эта модель работала хорошо или плохо. Вам нужно будет прокручивать вверх и вниз к диаграмме и обратно для справки, когда вы читаете.

Линейная регрессия, набор данных 2000–2020 гг.

Среднее количество побед: 35,7
Диапазон прогнозов:0–14
Очки согласно нашей новой системе: Всего 54 балла из 120

Наша новая система баллов дает этой модели скудный балл в 45%, если мы используем 100-балльную шкалу оценок. Не слишком здорово! Впрочем, как вы увидите на следующих моделях, он на самом деле ненамного хуже своих февральских соотечественников!

Нейронная сеть, набор данных 2000–2020 гг.

Среднее количество побед:35,1
Диапазон прогнозов:0–20
Очки согласно нашей новой системе: Всего 56 баллов из 120

Хотя эта модель не обладала высокой точностью, она была относительно эффективной для аппроксимации многих команд. Пропустили переходы в середине сезона (те команды, которые стали намного лучше или хуже).

Линейная регрессия, набор данных 2010–2020 гг.

Среднее количество побед:34,3
Диапазон прогнозов:1–15
Очки согласно нашей новой системе: Всего 56 баллов из 120

Несмотря на то, что нет ни одного точного предположения, эта модель имеет лучшую производительность среди моделей от 4 февраля. В соответствии с ожиданиями, изложенными в части 1, линейная регрессия в сочетании с современным набором данных за 2010–2020 годы была довольно точной в своих широких обобщениях того, как будет проходить сезон.

Нейронная сеть, набор данных 2010–2020 гг.

Среднее количество побед:35,1
Диапазон прогнозов:0–17
Очки согласно нашей новой системе: Всего 52 балла из 120

Ой! Не хорошо. Однако, учитывая, что мы работаем с нейронной сетью с ограниченным объемом данных (половина по сравнению с набором данных 2000–2020 гг.),

Полученные результаты

Результаты в приведенном выше разделе могут показаться не впечатляющими — может быть, даже мрачными. Фактически, все эти модели получили бы F по шкале оценок. Однако эти прогнозы были сделаны в феврале, до того, как наступила целая вторая половина сезона. Это означает, что команды, которые объединились (Майами Хит, Даллас Маверикс), а также те, которые полностью сбились с пути (Лос-Анджелес Лейкерс, Тор Рэпторс), не учитывались моделью.

Это явление связано с тем, что модель не может прогнозировать заранее, поскольку она просто смотрит на необработанные наступательные и оборонительные показатели каждой команды. Таким образом, такие неопределенности, которые могут сильно повлиять на производительность команды, такие как травмы, болезни, протоколы COVID и т. д., остались неучтенными.

По той же причине команды, показавшие одинаковые результаты на протяжении всего сезона, в целом финишировали там, где предсказывала модель.

Что это говорит о нашем моделировании?
Это говорит нам о том, что модели, настроенные таким образом, хорошо прогнозируют текущее положение команды на основе ее атакующие и оборонительные номера. Тогда мы можем разумно предположить, что со временем (и с большим количеством сыгранных игр) наши модели будут улучшаться все больше и больше.

Чтобы еще раз подтвердить эту идею, давайте повторно оценим те же модели в конце регулярного сезона, когда были собраны все данные.

Результаты модели: июнь (конец сезона)

Линейная регрессия, набор данных 2000–2020 гг.

Среднее количество побед:36,1
Диапазон прогнозов:0–10
Очки согласно нашей новой системе: Всего 88 баллов из 120

Ух ты, красивые цвета! Эта модель точна с точки зрения среднего числа побед, диапазона прогнозов и может похвастаться отличной суммой баллов 88!

Что ж, все выглядит великолепно, за исключением вопиющего прогноза OKC. Но, учитывая резкое падение OKC в конце сезона (финиш 2–23 в последних 25 играх), неудивительно, что модель классифицировала их как команду с 12 победами, а не с 22. В конце сезона они играли как один.

Нейронная сеть, набор данных 2000–2020 гг.

Среднее количество побед:36,7
Диапазон прогнозов:0–9
Очки по нашей новой системе:74сумма баллов из 120

Здесь много желтого. Эта модель была так же и всегда не соответствует действительности. Благодаря этой однородности он поддерживал относительно стабильное среднее количество побед, равное 36,7, и приличное общее количество очков, равное 74.

Однако, несмотря на то, что модель была сравнительно неточной, на этот раз было меньше выбросов, и ни одной команды не было в минусе. Нейронная сеть, как правило, лучше справляется с подсчетом команд с более тонкой гребенкой. Это неудивительно, поскольку нейронная сеть, в отличие от линейной регрессии, учится строить связи между слоями своих узлов с нюансом, который позволяет ей лучше прогнозировать команды в целом, хотя и неточно.

Линейная регрессия, набор данных 2010–2020 гг.

Среднее количество побед:35,9
Диапазон прогнозов:0–9
Очки по нашей новой системе:87сумма баллов из 120

Динь-Динь-Динь! Еще один победитель!

Эта модель имела еще один большой успех. Линейная регрессия смогла в основном правильно разместить каждую команду в правильном общем количестве побед и позиции.

Вы можете заметить, что результаты всех лотерейных команд восточной конференции желтые. Это отклонение от модели может быть связано с рядом потенциальных факторов. Возможно, команда, которая была переоценена моделью, например, «Рэпторс», проиграла несколько близких игр из-за случайного стечения обстоятельств. 5, если быть точным. На самом деле, в этом сезоне «Рэпторс» действительно проиграли 5 игр в пределах одного владения мячом, что указывает на то, что, возможно, если бы шанс был на их стороне, модель была бы более точной.

Нейронная сеть, набор данных 2010–2020 гг.

Среднее количество побед:37,9
Диапазон прогнозов:0–13
Очки по нашей новой системе:62сумма баллов из 120

Мы назовем эту модель Whammy (на фото слева во всей красе игрового шоу 1980-х).
Однако нас не должна слишком удивлять неточная производительность этой модели, учитывая ее небольшой набор данных. Конечно, нейронные сети полагаются на использование большого количества данных, чтобы делать правильные выводы. Представьте, что вы пытаетесь решить, следует ли вам поесть в Colony Cafe (1,5 звезды), и видите только 5-звездочный обзор Yelp от Edward RF. Вы были бы крайне разочарованы и, подобно нейронной сети, приняли бы неверное решение!

Обсуждение

Вышеприведенные результаты более или менее подтверждают наши более ранние точки обсуждения: текущие наступательные и оборонительные результаты команды являются разумными предикторами их относительного положения в любой конференции.

Прежде чем мы завершим эту дикую поездку, давайте поговорим о некоторых аномальных результатах моделирования.

В рамках двух моделей линейной регрессии я заметил, что, хотя результаты для высокоэффективных команд были чрезвычайно точными, по большей части результаты для плохих команд были сомнительными. Как упоминалось ранее, это может быть связано с рядом факторов, даже таких непредсказуемых, как сам случайный случай. Что более вероятно, так это то, что команды внизу, после того как они гарантированно пропустят плей-офф, пройдут через изменение идентичности. Часто это может означать обмен хороших игроков на молодых, недоказанных талантов или множество других долгосрочных целей. И, как правило, подобные ходы снижают производительность этой команды. Для Cavs, Magic и Thunder это, безусловно, звучит правдоподобно.

Однако как насчет «Пистонс», «Рэпторс» и «Пеликан», которые модель переоценила? Я утверждаю, что это могло быть связано со случайностью. Когда дело доходит до последнего владения мячом в игре НБА, есть игроки, которые чаще других забивают мяч в корзину. Однако для этих трех команд с умелыми тренерами, способными передать мяч в нужные руки, это либо случайная аномалия, которую невозможно объяснить, либо определенный фактор «сцепления», который могут упускать звездные игроки этих команд. .

Выводы

Хотя этот анализ не на 1000% идеален, он доказывает, что в достаточно высокой степени количество побед команды НБА в регулярном сезоне может быть в значительной степени сведено к голой статистике, которую указанная команда выставляет в обороне и нападении.

Это означает, что, когда дело доходит до этого, «склеивающие игроки», которые не вносят эффективного коэффициента возврата в общую статистическую производительность команды, могут быть не самыми влиятельными подписаниями команды.

Конечно, такой профессиональный вид спорта, как баскетбол, очень многогранен. И я признаю, что человек, ориентированный на статистику, такой как я, может упускать из виду важные личностные или «суетные» черты, которые заставляют некоторых игроков поднимать всю свою команду. Тем не менее, несмотря на то, что эти черты «ажиотажа» могут объяснять некоторые небольшие аномалии в работе определенных команд, из этого анализа они кажутся скорее исключением, чем правилом.

Сноски

Эта серия статей, хотя и не обязательно самая новаторская, научила меня многому о самостоятельной работе.

Важным отражением этого процесса самостоятельной работы является то, что настойчивость важнее совершенства. Когда вы пробуете что-то новое, например, пишете, важно поддерживать нормальный ритм, независимо от того, как эта работа может быть воспринята. Паралич анализа, напротив, есть именно паралич. То есть… ничего не делается.

Довольно легко позволить себе отвлечься на а, б и в повседневной жизни и продолжать делать одно и то же каждый день. И, конечно же, когда вы теряетесь в соусе однообразия, ваши цели и стремления могут оказаться жертвами.

Я не хочу задираться и читать лекции о том, как прожить свою жизнь, ведь мне всего 23 года. И я слишком долго откладывал окончание этой статьи. Но я понял, что часто прикладывать небольшое усилие гораздо лучше и устойчивее, чем пытаться толкнуть валун в гору за один раз (что я и сделал с обеими частями этого проекта, и не рекомендую).

Спасибо за прочтение, и увидимся еще на одном из них через тридцать шесть лет.

Использование машинного обучения для прогнозирования побед команд НБА (часть 2)

Результаты модели (февраль)

Линейная регрессия, набор данных 2000–2020 гг.

Нейронная сеть, набор данных 2000–2020 гг.

Линейная регрессия, набор данных 2010–2020 гг.

Нейронная сеть, набор данных 2010–2020 гг.

Полученные результаты

Результаты модели: июнь (конец сезона)

Линейная регрессия, набор данных 2000–2020 гг.

Нейронная сеть, набор данных 2000–2020 гг.

Линейная регрессия, набор данных 2010–2020 гг.

Нейронная сеть, набор данных 2010–2020 гг.

Обсуждение

Выводы

Сноски

Вопросы по теме