Использование методов KNN для прогнозирования результатов Cleveland Cavalier на основе данных перерывов

НБА часто считают лигой 4-й четверти. Поскольку очки можно набрать так быстро, почти в любой момент игры невозможно преодолеть непреодолимый дефицит. В результате большинство игр выиграно и проиграно в 4-й четверти. Тем не менее, в этой статье будут использоваться статистические методы, чтобы попытаться предсказать результаты игр Кливленд Кавальерс, учитывая только состояние игры в перерыве между таймами. Анализ будет включать три различных типа моделей. Самое интересное, что модель машинного обучения K-Nearest-Neighbours (KNN) используется для прогнозирования выводов. Затем для прогнозов используется логистическая модель. Наконец, используются две элементарные модели, которые служат барометром качества прогнозов на основе логистических моделей и моделей KNN: первая использует внутриигровые вероятности выигрыша ESPN для прогнозирования окончательных результатов, а вторая просто использует, какая команда выиграет в перерыве между таймами, для прогнозирования. какая команда победит.

Методы

Модель KNN

Модель KNN - это непараметрическая методика прогнозирования, которая полностью применима к реальным данным. По сути, модель KNN использует информацию о новом наблюдении, чтобы сделать прогноз относительно результата наблюдения, вычисляя, какие предыдущие наблюдения больше всего напоминают наблюдение, представляющее наибольший интерес. Модель KNN вычисляет расстояние между новым наблюдением и всеми другими предыдущими наблюдениями. Затем модель усредняет результаты k ближайших соседей, чтобы сделать прогноз для рассматриваемого наблюдения.

Рассмотрение расстояний между наблюдениями - довольно абстрактная идея, поэтому давайте рассмотрим поучительный пример, чтобы получить представление о том, что здесь происходит. Рассмотрим (сфабрикованные) данные [1], представленные в Таблице 1. Предоставляется набор данных для пяти игр, которые были завершены, и одной игры (игры Rockets), которая в настоящее время находится в перерыве. Для каждой игры отображается количество блоков, которые Cavs записали в первом тайме, а также количество очков, с которыми они опережают в перерыве между таймами. Наконец, записывается результат игры с точки зрения Кавалеров. Цель состоит в том, чтобы предсказать исход игры против Ракетс на основе информации, предоставленной блоками Кавс, и отвести в перерыве. Метод KNN рассчитывает расстояние между каждой завершенной игрой и игрой Rockets. Есть много разных методов определения этого расстояния. Двумя наиболее популярными являются евклидово (вспомните теорему Пифагора) и манхэттенское расстояние (подумайте городские кварталы). В этой статье будет использоваться евклидово расстояние.

Евклидово расстояние вычисляется путем нахождения квадратного корня из суммы квадратов разностей между каждым значением. Например, рассмотрим расстояние между игрой «Ракеты» и игрой «Бакс».

Таким же образом рассчитывается расстояние между игрой «Ракеты» и всеми другими наблюдениями; итоговые расстояния можно увидеть в Таблице 2. Также в Таблице 2 мы видим, что игры Celtics, Bucks и Suns (выделены зеленым цветом) являются тремя наиболее близкими по расстоянию к игре Rockets. Если мы проведем анализ, рассматривая трех ближайших соседей в игре «Ракеты», то мы будем использовать эти три наблюдения, чтобы делать прогнозы. Примечание: здесь «k» в KNN равно трем. Итак, как делается прогноз? Из Таблицы 1 видно, что два из трех ближайших соседей по игре Rockets заканчивают игру Cavs. В результате прогноз таков, что Cavs победят Rockets.

Чтобы определить, какие переменные использовать в качестве предикторов в этой модели, была использована команда лучших подмножеств в R, чтобы получить представление о том, какие предикторы имеют наибольшую прогнозирующую способность. После рассмотрения того, какие подмножества предикторов обладают наибольшей предсказательной силой, были выбраны подмножества разного размера для создания нескольких различных моделей. Наконец, я немного повеселился и выбрал для себя несколько предикторов, основываясь на моем чутье и на том, что я знаю о НБА. Ниже представлены четыре набора предикторов. Эти четыре набора предикторов являются предикторами, используемыми в четырех моделях KNN.

Наконец, давайте потратим некоторое время на определение того, как использовать модели KNN для получения прогнозных результатов. Часто при анализе KNN полный набор наблюдений разделяется на две группы: первая группа используется для создания модели (обучающая группа), а вторая группа используется для тестирования модели (тестовая группа). Идея состоит в том, что мы мы можем использовать обучающую группу, чтобы делать прогнозы относительно тестовой группы, а затем мы можем сравнивать прогнозируемые результаты тестовой группы с их фактическими результатами. Это дает нам некоторое представление о качестве предсказательной силы. Тем не менее, на момент написания этой статьи Cavs сыграли всего 72 игры в этом сезоне. Если разделить группу на обучающую и тестовую наборы, то быстро не будет достаточно наблюдений, чтобы делать точные прогнозы. Скорее, методы в этой статье предсказывают каждую игру один раз, позволяя другим 71 игре быть обучающей выборкой и используя одиночную игру интриги в качестве тестовой. Таким образом, есть прогноз для каждой игры, основанный на результатах других 71 игры. Чтобы определить качество прогнозов, просто введите в таблицу процент правильных прогнозов. Результаты можно найти в разделе «Результаты».

Другие модели

Также рассматриваются логит-модель и две элементарные модели, которые обеспечивают сравнительные значения. Для модели логита использовались те же предикторы, что и для модели KNN, для которой я выбрал предикторы на основе моей собственной интуиции. Поскольку вероятности, связанные с прогнозами, являются важной частью этого анализа, логит представлен как пробит:

Если логит предсказывает, что Cavs выиграют игру с вероятностью более 50%, это называется предсказанной победой. Вероятность выигрыша в игре ESPN используется аналогичным образом. Если ESPN прогнозирует победу Cavs с вероятностью более 50% в перерыве между таймами, это прогнозируемая победа. Наконец, в модели «лидерство как предсказатель», если Cavs выигрывают в перерыве, это также прогнозируемая победа.

Результаты

Подумайте, как эти семь моделей сочетаются друг с другом. В таблице 3 каждая модель представлена вместе с процентным соотношением времени, в течение которого она сделала правильный прогноз результата. Мы видим, что модель KNN, в которой я следовал своей интуиции, чтобы выбрать предикторы, дает наиболее правильные прогнозы.

Анализ

Самым интересным результатом здесь является то, что в моделях KNN большее количество предикторов не обязательно лучше. Лучший способ учесть эту закономерность - рассмотреть процесс нормализации в анализе KNN. Частью процедуры KNN является нормализация каждого значения до значения в процентах от максимума, а не использование самого значения при определении евклидова расстояния. В конце концов, этот процесс заставляет каждый предсказатель иметь одинаковый вес. По этой причине большее количество предикторов не обязательно связано с большей предсказательной силой в модели KNN. Для большинства регрессий мы даем регрессии набор предикторов, а затем просим регрессию показать нам, какие предикторы наиболее важны, давая нам t-статистику для каждого предиктора. Однако, добавляя переменные, мы никогда не уменьшаем общую вариативность, объясняемую стандартной регрессией. В модели KNN нам не предоставляется такая роскошь.

Этот аспект нормализации процесса KNN заставляет каждую переменную, включенную в модель, иметь равный вес. Это принудительное равное участие не обязательно хорошо или плохо, а просто предоставляет пользователю больше возможностей выбора. Что наиболее важно при создании высококачественной нормализованной модели KNN, так это выбор предикторов, которые кажутся гармоничными. Каждый добавленный предиктор не только имеет такой же вес, как и другие ранее существовавшие предикторы, но и уменьшает прогностический вклад ранее существовавших предикторов. Для дополнительного чтения рассмотрим статью Ли, Руи и Гуаня [2], в которой исследуются эти вопросы. Они рассматривают методы KNN, в которых используются различные механизмы взвешивания, позволяющие прогнозируемому вкладу варьироваться среди объясняющих переменных.

Заключение

Модель KNN способна прогнозировать результаты игры Cavs на основе статистики команд в перерыве между таймами. Фактически, в лучшей прогностической модели 71% предсказанных результатов были правильными. Это можно сравнить с 67%, которые логит-модель правильно предсказывает, с 70%, которые правильно предсказала вероятность выигрыша в игре ESPN, и с 68%, которые можно правильно спрогнозировать, просто предсказав, что команда, выигравшая в перерыве, выиграет игру. . Основным ограничением моделей KNN, представленных в этой статье, является то, что все переменные рассматриваются как одинаково важные при рассмотрении прогнозируемых результатов. В результате большее количество прогнозируемых переменных не обязательно приводит к более точной модели.

Генри Майерс - старший специалист по экономике и математике в Кеньон-колледже.

Цитируемые работы

Ли, Жуй и Гуань Гун. «Непараметрическая оценка K-ближайшего соседа функций регрессии в присутствии нерелевантных переменных». Econometrics Journal, vol. 11, вып. 2. 2008. С. 396–408.

Тирумуруганатан, Сараванан. «Подробное введение в алгоритм K-ближайшего соседа (KNN)». Word Press, 17 мая 2010 г.

Виллемс, Карлин. Машинное обучение на языке R для начинающих. Сообщество DataCamp, 25 марта 2015 г., www.datacamp.com/community/tutorials/machine-learning-in-r.

[1] Данные, приведенные в таблице 1, являются сфабрикованными. Он предназначен только для использования в ознакомительных целях и не представляет никаких данных, используемых в этой статье.

[2] Официальное цитирование в разделе Цитированные работы

Использование методов KNN для прогнозирования результатов Cleveland Cavalier на основе данных перерывов

Вопросы по теме