Мартовское безумие 2019: лучшая статистическая модель

После долгого изнурительного путешествия команда Virginia Cavaliers одержала победу в мужском баскетбольном турнире NCAA 2019 года. Это не было большим сюрпризом - у кавалеров были вторые лучшие шансы на то, чтобы вырубить сети в Миннеаполисе. Однако события, которые привели к этому моменту, были шокирующими. Например, Оберн Тигры впервые в истории команды вышли в Финал четырех после того, как расстроили North Carolina Tar Heels и Kentucky Wildcats. Кто мог это предвидеть? Ну… сделали.

Наша статистическая модель выделялась своим первым появлением. В турнире ESPN Tournament Challenge он занял 99-й процентиль во всех брекетах. Это потрясающе хорошо для чисто статистического подхода. Несколько недель назад мы наблюдали, как модель складывается по сравнению с другими объективными техниками брекетологии после первого раунда. Теперь мы можем взглянуть на окончательные результаты.

Если не считать промаха в 1/16 финала, наша модель превзошла остальных конкурентов. Из-за огромного количества очков, начисленных в скобки, которые правильно предсказывают победителя национального чемпионата, я подсчитал очки, накопленные перед игрой национального чемпионата, а также реальную сумму. В последнем столбце вы можете увидеть, что, кроме нашей собственной модели, все модели выполнялись примерно на одном уровне в финальной игре. Конечный результат просто увеличил разрыв.

Хотя итоговая оценка 1360, несомненно, потрясающая, очевидно, что было несколько прогнозов, которые модель упустила. Наиболее примечательным из них, вероятно, является пробег команды Texas Tech Red Raiders к Национальному чемпионату. Наш алгоритм давал Мичигану 52,28% шанс победить Red Raiders в Sweet 16. На самом деле Texas Tech вышла вперед с 19 очками. Кроме того, хотя наша модель давала 12-посевным Oregon Ducks приличный шанс 42,03% на победу над Wisconsin Badgers в первом раунде, она не предполагала, что Ducks дойдут до Sweet Sixteen.

В эту модель можно внести несколько улучшений. В настоящее время он состоит из 30 взвешенных входов, но это число можно легко увеличить. Кроме того, алгоритм по сути является примером машинного обучения - теоретически он должен улучшаться с каждым годом по мере роста набора данных. Другими словами, модель должна учиться на своих ошибках и корректировать свою формулу для их учета. Конечно, проблема с этой идеей - это количество случайности и удачи, неотъемлемо присущее турниру. Оберн легко мог проиграть штату Нью-Мексико (хотя серьезно), и в этом случае вся наша модель выглядела бы очень глупо.

Я также считаю, что эту модель можно было бы использовать еще более эффективно, если бы она сочеталась с реальными человеческими знаниями студенческого баскетбола. Если бы Дюк выиграл турнир, одна из моих брекетов (основанных на этой модели) закончила бы с 1500 очками. Учитывая, что я практически не разбираюсь в баскетболе в колледже, это впечатляет. Может быть, фанатик баскетбола из колледжа смог бы еще больше раздвинуть границы.

Будет интересно посмотреть, насколько хорошо эта модель будет работать в будущем. Было бы очень впечатляюще, но не совсем реалистично поддерживать какую-либо последовательность в турнире под названием «Мартовское безумие». Все, что мы можем с уверенностью сказать, - это то, что этот алгоритм был самым точным в своем роде на турнире этого года. Это круто.

Первоначально опубликовано на www.thespax.com 13 апреля 2019 г.

Мартовское безумие 2019: лучшая статистическая модель

Вопросы по теме