Баскетбол и бейсбол заняли больше место в науке о данных, чем в футболе. Однако ситуация меняется, хотя последняя имеет менее информативные данные.

Я занимаюсь разработкой предсказателя результатов футбольных игр с помощью машинного обучения. Излишне говорить, что ощутимых результатов добиться сложно. Баскетбол отличается от футбола тем, что результат последнего всегда в той или иной степени связан с игровым процессом. С другой стороны, в футболе может быть игра, в которой результат полностью не связан с игрой на поле. Подумайте о маловероятном пробеге Греции в евро 2004 года. При этом даже баскетбольные матчи могут иметь серьезные неприятности, однако такие сюрпризы будут отражены в данных (например, высокий процент бросков и т. Д.)

Еще одна проблема - высокий уровень детализации. Одним из примеров в наборе данных является матч с характеристиками двух соревнующихся команд. А именно скользящие средние исторических данных. Результативность команды - это сумма выступлений 11 человек. Однако этот эффект явно не аддитивен: когда у команды нет правильного тактического плана, он не полностью выражает способности человека. Следовательно, команда - это меньше, чем сумма ее частей. Было бы интересно, если бы у нас были какие-то соревнования по фэнтези-драфту, в которых игроки распределялись бы по командам. Это дало бы нам возможность правильно различать индивидуальный вклад. В этом еще одно преимущество баскетбола, его обратимые замены дают нам отличные возможности для сравнения разных составов. Кроме того, благодаря результатам работы их можно оценить за очень короткое время.

Проблема прогнозирования никогда не будет решена, поскольку даже в случае значительных улучшений модели придется адаптировать раньше, чем позже, поскольку команды будут использовать полученные знания. Однако применение науки о данных в спорте выходит за рамки предсказаний. Меня особенно интересовало применение обучения без учителя. На мой взгляд, уменьшение размерности более заметно, чем кластеризация. Это видно на рисунке выше. Кажется, что элементарные атрибуты (угловые, броски, владение мячом и т. Д.) Группируют команды по качеству, а не по стилю игры. На рисунке показана взаимосвязь между бросками в игре и владением мячом. Кластеры были определены кластеризацией K-средних. Если мы выберем разные атрибуты на диаграмме рассеяния, кластер все равно будет располагаться аналогичным образом. Поэтому важной переменной, объединяющей их, является качество. Кроме того, люди в любом случае склонны мыслить категориями, наука о данных здесь, чтобы дать им новую перспективу. У людей уже есть множество категорий, по которым они делят игроков. Чтобы проиллюстрировать, браконьер, такой как Криштиану Роналду, относится к другой категории, чем многомерный номер 10, такой как Месси. Следовательно, мы предлагаем сосредоточиться на измерениях футболистов и команд, а не на категориях. Это можно сделать с помощью методов уменьшения размерности, таких как PCA, или построения объектов с новыми искусственными атрибутами, такими как ожидаемые цели.

Эта статья послужила обзором моего опыта работы с футбольными науками о данных. Я расскажу подробнее в следующих статьях.