На прошлой неделе моя модель правильно предсказала победу «Рэмс». Однако более захватывающим, чем успех моей модели, был ее провал. Пока я предсказывал победу «Чифс», «Бенгалс» одержали победу в овертайме и добрались до своего первого Суперкубка за более чем тридцать лет. А с окончанием плей-офф приходит и конец этой серии. В этой заключительной статье я объясню третью модель, которую использовал, а затем дам свои прогнозы на Суперкубок.

Использование экспертных знаний

Для моей окончательной модели я снова использовал обучение с учителем (объяснено в моем предыдущем посте), но применил этот подход к другому набору данных. Раньше я использовал игровую статистику, такую ​​как пасовые ярды, ярды рывков, сэки и несколько других статистических данных. Однако в моей текущей модели я использовал прогнозы экспертов в качестве обучающих данных. Это может показаться необычным источником данных. Обычно, когда мы думаем о данных, мы думаем о вещах, которые можно объективно измерить, например о расстояниях. Однако данные также могут быть субъективными измерениями, такими как рейтинги фильмов или, в данном случае, футбольные прогнозы. Чтобы обучение с учителем работало, все, что нам нужно, — это некоторая целевая переменная (кто победитель в игре) и некоторый вектор признаков (информация, связанная с этой игрой). Экспертные прогнозы могут соответствовать роли вектора характеристик, поскольку каждый прогноз сообщает нам что-то очень полезное о рассматриваемой игре: то, что, по мнению одного человека с многолетним футбольным опытом, будет результатом.

Хотя можно использовать прогнозы экспертов в качестве признаков, следует задаться вопросом: эффективно ли это? Как покажут мои результаты, ответ положительный. По своей сути наука о данных и машинное обучение связаны с поиском закономерностей в данных. Легко увидеть, где эти шаблоны могут возникнуть с более традиционными данными. Команды, у которых больше пасовых ярдов, имеют больше шансов на победу. Команды, которые обычно часто переворачивают мяч, с большей вероятностью проиграют. С кучей экспертных прогнозов эти отношения становятся менее четкими. Если одна группа экспертов предсказывает победу «Бенгалс», а другая предсказывает победу «Рэмс», кому мы должны верить? Один из способов подумать об этом — рассмотреть, как эксперты делают прогнозы.

Разные эксперты оценивают разные аспекты игры. Все они смотрят на матчи разных игроков и используют разные эвристики для своих выводов. В этих разных подходах каждого эксперта лежат разные предубеждения. Возможно, кто-то из экспертов неправильно оценивает важность линии нападения. Затем мы могли бы представить, что другой эксперт, обладающий большими знаниями о том, как линия может повлиять на игру, может исправить этот просчет. Это исправление может быть осуществлено третьим экспертом, прогнозы которого показывают, насколько важную роль сыграет линия в данной игре. Объединив прогнозы этих трех экспертов вместе, мы могли бы получить правильный прогноз.

Полученные результаты

Я попробовал несколько различных моделей обучения с учителем, но в итоге обнаружил, что случайный лес дает наилучшие результаты.

Интересно отметить, что случайный лес в целом работал лучше, чем базовые уровни «Лучший эксперт» и «Большинство экспертов». Это интересно, потому что предполагает, что случайный лес уловил какую-то закономерность, которая была упущена этими базовыми линиями. Случайные леса способны моделировать сложные шаблоны, выходящие за рамки простых средних значений, используемых в моих базовых тестах. Поскольку такая модель хорошо работает вне выборки (о чем свидетельствует высокая точность прогнозирования перекрестной проверки), кажется, что такие сложные шаблоны могут существовать в данных и могут быть эффективно зафиксированы.

Предсказания

К сожалению, моя модель снова предсказала поражение Bengals. Однако бенгалы уже дважды обыгрывали мою модель. Это будет тяжелый матч для «Бенгалс», но, учитывая их сильную игру в последнее время, я бы точно не стал их сбрасывать со счетов.

Я надеюсь, что каждый, кто следил за этой серией постов, смог извлечь из этого что-то полезное. Хотя мне удалось охватить лишь несколько из бесчисленного множества моделей, используемых в машинном обучении, я надеюсь, что читатели получили лучшее представление о том, как данные можно использовать для решения проблем.