Kaggle проводит грандиозный конкурс, в котором людей просят присылать прогнозы на турнир NCAA March Madness 2016. Лучшая часть: они предоставляют множество игровых данных, датируемых 1985 годом (спасибо, Кен Мэсси!), Которые вы можете использовать для построения своей модели.

Мой метод определения победителя прост:

Проходя каждую игру регулярного сезона, начиная с 1985 года, мы ...

  1. Добавьте приведенную ниже строку функции в наш массив X и информацию о выигрыше или проигрыше в массив y.
  2. Обновите счет Эло каждой команды после победы или поражения (мы начинаем с 1600)
  3. Средние 13 категорий характеристик (например, попытки попадания с игры, подборы в атаке и т. Д.) Из предыдущих пяти игр, которые мы используем на следующей итерации цикла, где эта команда играет в качестве нашей особой строки, X, как упомянуто в # 1

Итак, функциональная строка выглядит так:

team 1 elo, stat 1, stat 2…stat 13, team 2 elo, stat 1, stat 2…stat3

И метка: 1 для победы «команды 1» или 0 для победы «команды 2».

Пройдя цикл по всем играм, мы используем массивы X и Y для соответствия модели логистической регрессии. (Я использую Sklearn на Python.) В общей сложности модель обучена на 68 306 играх регулярного сезона и дает перекрестную проверку точности 0,726.

Узнав, я использую модель для вычисления вероятности победы каждой команды над всеми остальными командами, участвовавшими в турнире. Тогда остается лишь использовать вероятности для заполнения скобок.

Сделав это, я пришел к выводу, что Вилланова собирается обыграть штат Мичиган, чтобы выиграть все!

Я не уверен, насколько это точно, поэтому, если вы планируете использовать эти данные для своего собственного пула, помните, что я смотрел только один баскетбольный матч за всю свою жизнь, так что я так же близок к тому, чтобы стать экспертом, как ваш местный головастик. Но я публикую здесь свои результаты, чтобы быть честным. Если он окажется победителем, я сделаю полную рецензию и выпущу код.

Моя расчетная вероятность победы Новы в каждом матче:
UNCA - 98%
Айова - 88%
Аризона - 64%
Канзас - 59% < br /> Орегон - 58%
Штат Мичиган - 52%

Я не математик, но думаю, это означает, что я даю Нове около 10% шансов на победу в турнире.

Обновление, 5 апреля. Я написал последующий пост с дополнительной информацией и ссылками на код.

Примечание. Если вам интересно, скриншот взят из игры USA TODAY Sport’s NCAA Bracket Game. Раскрытие информации: я работаю в USA TODAY Sports и принимал активное участие в создании этой игры. Двойное раскрытие: у меня нет доступа к закрытой информации о турнире. Все данные, использованные для моей модели, были предоставлены в наборе данных о соревнованиях Kaggle.