Обучение алгоритма XGBoost для прогнозирования количества бросков, которые команда заблокирует.

Мой интерес к блокировке ударов начался, когда я наткнулся на пост в блоге Криса Саммерселла. Саммерселл подчеркнул стратегию Ливерпуля не блокировать удары с дальней дистанции. Я был удивлен, что такая успешная команда позволила нападающим безальтернативно стрелять с дальней дистанции.

Существует слабая корреляция между блокирующими бросками и пропущенными голами, но это просто потому, что чем больше бросков вы пропускаете, тем больше вероятность того, что вы их заблокируете. Так что блокировка выстрелов сама по себе не так уж и плоха. Мне нужен был способ прогнозировать количество заблокированных бросков, определять команды, которые блокируют больше или меньше, чем ожидалось, и исследовать связь с качеством защиты.

Метод

Я обучил алгоритм XGBoost (объяснение здесь), чтобы предсказать количество бросков, которые команда заблокирует, используя девять различных переменных. Данные, использованные для обучения модели, были взяты из Большой пятерки европейских лиг Football Reference. Я использовал последние четыре сезона: 2017/18, 2018/19, 2020/21 и 2021/22. Я исключил сезон 2019/20, потому что Лига 1 отказалась от сезона из-за COVID. Код, который я написал для этого проекта, доступен на моем GitHub.

Девять переменных, которые я использовал, были: разрешенные броски, % владения мячом, сейвы вратаря, разрешенные третьи касания в атаке, разрешенные ожидаемые голы без пенальти, разрешенные голы, средняя дистанция защитных действий (от собственных ворот), средняя дистанция разрешенных бросков и собственные цели.

Оценки важности функции, которые показывают, какое влияние оказала каждая переменная по сравнению с другими, показаны ниже:

Я разделил данные на наборы для обучения и тестирования и использовал настройку гиперпараметров, чтобы минимизировать среднеквадратичную ошибку (RMSE). Наконец, я использовал обученную модель, чтобы предсказать количество блокировок для европейских лиг Большой пятерки в текущем сезоне 2022/23.

Полученные результаты

Модель ожидаемых блоков (xBlocks) имела относительно сильную корреляцию с фактическими блоками для каждой команды, при этом около 65% дисперсии объясняется, как показано ниже:

Я вычел xBlocks для каждого клуба из количества бросков, которые они фактически заблокировали, чтобы получить количество блоков сверх ожидаемых (BOE). Ниже я построил график BOE относительно допустимых голов без штрафных очков (npxGA) каждой команды:

Анализ

Блокирование большего или меньшего количества ударов, чем ожидалось, автоматически не приводит к лучшей защите. Тем не менее, мы видим некоторые из лучших клубов мира на данный момент в правом верхнем углу: «Ньюкасл Юнайтед», «Манчестер Сити», «Барселона», «Реал Мадрид» и «Наполи».

У «Ньюкасла» самый высокий показатель BOE в Европе: на 31,5 больше заблокированных бросков, чем ожидалось, что на 61% лучше (!!!), чем у следующей ближайшей команды, Эмполи. Это наряду с лучшим показателем защиты в Премьер-лиге и вторым лучшим результатом в Европе после «Барселоны».

Однако некоторые команды лучше защищаются, но блокируют меньше бросков, чем ожидалось. В частности, «Интер», который занимает второе место в Серии А и в 1/8 финала Лиги чемпионов. Многие команды также имеют положительный BOE с ужасными показателями защиты.

Однако вернемся к Ливерпулю.

Их некогда блестящая защита (третье место в Премьер-лиге в сезоне 2021/22) рухнула с обрыва. Но наблюдения Саммерселла по-прежнему верны: «Ливерпуль» заблокировал меньше бросков, чем ожидалось.

Соперники «красных» стабильно имеют одну из самых низких дистанций удара до ворот. В то же время «Ливерпуль» не заинтересован в блокировании этих дальних ударов. «Ливерпуль» занимает четвертое место по наименьшему количеству бросков в Премьер-лиге. Неужели соперники настолько уважают вратаря Алиссона? Его ожидаемое количество голов после броска +/- выше среднего во всех, кроме одного, его пяти сезонах в «Ливерпуле».

Какой бы ни была проблема с защитой «Ливерпуля», похоже, она не связана с вратарем или блок-шотами. Для тех, кто смотрел игры, ясно, что есть структурные проблемы. В этом сезоне показатель npxG/Shot, пропущенный «Ливерпулем», показатель качества броска, является худшим в лиге. «Ливерпуль» не отказывается от многих бросков, но те, которые они делают, находятся в опасных зонах.

Заключение

Статистика защиты в футболе по-прежнему туманна. Но BOE может быть полезной основой для классификации средств защиты. Знание тенденций команды к блокированию ударов может быть полезно для планирования того, как реагировать на то, что дает вам защита. Блокирование большего количества ударов, чем ожидалось, похоже, работает для многих клубов, но если ваш соперник делает эти удары из хороших позиций, вы, вероятно, не сможете заблокировать себе путь в безопасное место.

Если вы хотите поиграть с более ранним точечным графиком, нажмите здесь для панели инструментов Tableau.

Для будущей работы версия этой модели, обученная на данных отслеживания, станет следующим шагом к лучшему пониманию того, как расстояние и позиция игрока влияют на блокировку ударов. Кроме того, я заинтересован в объединении BOE с другими показателями защиты, чтобы попытаться предсказать npxGA клуба.

Спасибо Аарону Монису за отзыв и Football Reference за данные.

Рекомендации

  1. https://machinelearningmastery.com/xgboost-for-regression/
  2. https://towardsdatascience.com/xgboost-fine-tune-and-optimize-your-model-23d996fab663
Want to Connect?

You can reach me on Twitter @analyticsavi / @avi_rn.