Каждый год после того, как в Отборочное воскресенье объявляются составы турниров, миллионы людей заполняют квадратные скобки и пытаются предсказать следующую историю Золушки. У каждого своя стратегия; будь то выбор любимого игрока или лучшего талисмана, но ниже мы рассмотрим, как использовать данные, чтобы найти выгоду на рынке спортивных ставок. Никто не может предсказать, что произойдет в марте, но анализ данных может помочь нам определить некоторые команды, которым не хватает любви. В этом случае мы собираемся использовать модель логистической регрессии, построенную на нескольких ключевых показателях, чтобы предсказать победителя в гипотетическом матче между двумя командами.

Модель

Модель логистической регрессии позволяет нам использовать входные переменные для прогнозирования того, произойдет ли двоичное (да / нет) событие. Модель использует только указанные входные переменные для прогнозирования, не принимая во внимание что-либо еще. Такой подход устраняет всякую предвзятость из уравнения, поэтому вам не нужно думать о таких вещах, как у кого высшее начальное число. Модель анализирует каждую игру в течение сезона и изучает, насколько важна каждая переменная для прогнозирования победителя игры. Ниже приведены переменные, используемые моделью при прогнозировании:

Четыре фактора

  • Атака и защита Эффективный FG%
  • Оборачиваемость в атаке и обороне%
  • % Отскока в атаке и защите
  • Свободный бросок %

Интенсивность расписания

Маржа победы

Первые четыре перечисленные переменные известны как четыре фактора и в течение многих лет использовались для прогнозирования игр НБА. При сравнении НБА и колледжа наблюдается повышенный уровень паритета, поэтому нам также необходимо учитывать силу графика команды. Добавление рейтинга KenPom в качестве входной переменной означает, что каждая игра в течение сезона оценивается в зависимости от уровня конкуренции. Статистическое доминирование такой команды, как Дюк, играющей в ACC, более впечатляет, чем для кого-то вроде С.Ф. Остина. Последняя входная переменная - это предел победы, поэтому команда улучшается больше за победу с 30 очками, чем за победу с 3 очками.

Как это использовать

Если бы вы использовали эту модель для предсказания исхода каждой игры в этом году, вы бы правильно предсказали победителя в 76% всех игр. Модель также имеет потерю журнала менее 10%, что означает, что она лучше работает при прогнозировании с более высокой степенью уверенности.

Чтобы найти недооцененные команды и хорошие возможности для ставок, мы можем сравнить прогнозируемые вероятности выигрыша модели с предполагаемыми вероятностями выигрыша для реальных линий Вегаса. Чем больше разница между моделью и Вегасом, тем больше возможностей для ставок. Вычисляя разницу между ожидаемой вероятностью выигрыша и заявленными шансами в Вегасе, мы можем определить, насколько велико наше преимущество над казино. Это преимущество определяет размер ставки в каждой игре.

Прежде чем погрузиться в игру первого раунда, мы проанализируем выступление модели на турнире 2018 года. Все игры выражаются в единицах, то есть на сумму, которую вы обычно ставите на игру.

Все модели основаны на денежной линии, то есть мы выбираем победителя игры (а не команду, покрывающую спред). Обычные игроки, делающие ставки на спорт, имеют тенденцию делать ставки на фаворитов или команду с более высокой вероятностью выиграть игру. Букмекерская контора Vegas будет корректировать линии соответственно, чтобы извлечь выгоду из тенденции публики делать ставки на фаворитов, и эта динамика часто создает значительную ценность для ставок на аутсайдеров. При рассмотрении представленных ниже игр важно смотреть на шансы, которые определяют, сколько игрок получает компенсацию за ставку в 100 долларов. В прошлом году у этой модели был рекорд 9–9, но это все равно было невероятно прибыльным, поскольку большинство игр было на крупных аутсайдерах. За весь турнир было проведено 18 официальных розыгрышей с вложением 25 единиц. Средние шансы на эти 18 розыгрышей были +256, поэтому даже при достижении 50% прибыль по-прежнему составляла 16 единиц, что представляет собой рентабельность инвестиций в размере 64% от 25 вложенных единиц.

Официальные пьесы модели 2018 года - Полный турнир

С партиями 1-го тура турнира 2019 года можно ознакомиться ниже.

Официальные пьесы модели 2019 года - Раунд 1

Согласно моей модели, самая недооцененная команда турнира - это Houston Cougars. Если вы ищете будущую ставку с положительным математическим ожиданием, подумайте о том, чтобы взять Хьюстон, чтобы выиграть Средний Запад с +500. Это игра на 0,5 единицы, чтобы выиграть 2,5 единицы.

Рейтинг силы

Мы также можем использовать модель для более детального анализа, помимо личных встреч. Модель делает прогноз для каждого возможного матча независимо от того, где находятся команды в сетке. Поскольку в турнире участвуют 68 команд, модель сгенерирует прогнозируемую вероятность победы над всеми 67 участниками. Для каждой команды вы можете просуммировать прогнозируемую вероятность выигрыша во всех 67 симуляциях, а затем разделить на общее количество игр (67), это даст вам средний процент выигрыша. Средний процент побед показывает, какие команды, по прогнозам модели, будут иметь наибольший успех на протяжении всего турнира.