Оценка ключевых проблем клуба и ориентация на молодежь посредством регрессии

Краткое содержание

FIFA 21 — видеоигра в жанре футбольного симулятора, разработанная EA. Он популярен среди молодого поколения и даже среди настоящих футболистов [3]. «Манчестер Юнайтед» испытывает трудности в Премьер-лиге, высшей футбольной лиге Англии. Серия неудачных вложений игроков должна привести к их краху. В этом исследовании с веб-сайта sofifa.com был взят набор данных о 806 футболистах, перечисленных в FIFA 21 и в настоящее время действующих в Премьер-лиге в 2021 году. Эти общедоступные данные о футболистах использовались для выявления различий в характеристиках игроков между «Манчестер Юнайтед» и другими клубами лиги. Главной проблемой в команде был низкий рост команды со стареющей полузащитой. Был сделан вывод, что возраст, международная популярность и количество подписчиков в социальных сетях были наиболее важными характеристиками, связанными с ростом игроков. Чтобы заполнить пробел в составе клуба, регрессия Риджа была лучшей моделью для прогнозирования и интерпретации роста игроков. Модель имела оценку R-2 0.84 на тестовом наборе, где Рико Ричардс был выбран в качестве подходящего полузащитника для трансфера из-за его низкой еженедельной зарплаты и высокого потенциала роста.

Введение

FIFA 21 — это популярная видеоигра, основанная на футбольном симуляторе, в которой есть полезная база данных реальных футболистов. В прошлом другая футбольная игра Football Manager широко использовалась для поиска игроков по всему миру. Популярные футбольные команды использовали анализ данных для поиска игроков и принятия стратегических решений[4].

«Манчестер Юнайтед» был чемпионом Премьер-лиги в сезоне 2013–14, но за последние восемь лет его показатели снизились. Неправильное принятие решений и неправильный выбор набора персонала привели к этому падению. Три ключевые проблемы, которые в настоящее время препятствуют росту клуба, заключаются в следующем:

  1. Самый высокий фонд заработной платы игроков в лиге — 226 миллионов фунтов стерлингов.
  2. Стареющий состав со средним возрастом 27 лет, 10-е место в лиге, особенно полузащитники.

Повернуть свое состояние и обеспечить попадание в топ-4 очень важно для функционирования клуба, поскольку это обеспечивает дополнительный доход за счет бронирования места в Лиге чемпионов УЕФА. В настоящее время команда занимает 5-е место в лиге и демонстрирует плохие результаты в лиге. Чтобы преодолеть это, команде необходимо набирать новых молодых игроков, которые не получают высокую еженедельную заработную плату.

В этом исследовании берется набор данных о футболистах Премьер-лиги с упором на найм из худших команд в лиге, игроки которых, вероятно, перейдут в другую команду, чтобы избежать вылета. Их текущие игровые качества наряду с их потенциальным ростом оцениваются, чтобы решить, какие игроки имеют высокий потенциал роста. Модель линейной регрессии с ее расширениями хребтовой и полиномиальной регрессии используется для прогнозирования роста игроков команд низшей лиги и представления некоторых возможных вариантов на основе модели.

Методы

Дизайн исследования и исследуемая популяция

Проект был разработан для «Манчестер Юнайтед», чтобы найти футболистов премьер-лиги для своей команды. Общее количество 18 541 игрока, доступных в командах высшей лиги по всему миру, из 170 стран мира.

Для анализа выбраны футболисты английской премьер-лиги, так как было бы проще оценить их выступление и найти их.

Сбор данных

Исходные данные обновляются производителем игры FIFA ежегодно во время выпуска игры в октябре каждого года. Они не сделали свой API доступным для публичного использования. Данные можно извлечь, купив игру для ПК и скопировав профили игроков в игровых файлах.

Эту работу выполнил веб-сайт sofifa.com[5], который ежегодно обновляет данные для общего пользования и публикует их на своем веб-сайте. Я использовал веб-скрапинг для извлечения набора данных в табличной форме[6].

Для каждого игрока заполняются демографические данные игрока, текущая команда, национальность, позиция на поле и различные игровые атрибуты, измеряемые по шкале от 0 до 100.

Предварительная обработка данных

В исходном скопе были данные о 18 541 игроке по всему миру. В центре внимания проекта был «Манчестер Юнайтед», который играет в Премьер-лиге Англии. Таким образом, набор данных был отфильтрован, чтобы получить информацию только о командах Премьер-лиги. Выбранный набор данных содержит 806 игроков и 91 атрибут.

Детали упущенных 43 функций следующие:

  • Поля, относящиеся к имени файла изображения изображения игрока, логотипу клуба и национальному флагу.
  • Возможный рейтинг игрока, если он был сыгран без позиции. Этого можно избежать, поскольку основное внимание уделяется росту игрока на исходной позиции.
  • Номер на футболке и уникальный идентификатор игрока

В функции Position было 28 категорий. Я сократил категории до 4 основных сегментов:

  1. ГК: вратарь
  2. ДФ: Защитник
  3. Полузащитник: полузащитник
  4. СТ: нападающий

В наборе данных есть два столбца качества игрока: Overall и Potential. В целом, индивидуальный рост важен для поиска молодых талантов в лиге. Итак, новый столбец Growth создается с использованием разницы между Overall и Potential игрока.

В столбце Club указано 20 различных футбольных команд. Поскольку «Манчестер Юнайтед» является клубом высшего уровня, было бы справедливо оценить его с помощью трех лучших команд в турнирной таблице. Итак, колонка была разделена на четыре категории:

  1. Манчестер Юнайтед: Манчестер Юнайтед
  2. Топ-3: «Манчестер Сити», «Ливерпуль», «Челси».
  3. Внизу 3: Борнмут, Вест Бромвич Альбион, Уотфорд
  4. Другие: оставшиеся 13 команд.

Эта категоризация будет использоваться в визуализации в отчете.

Три столбца Weak Foot, International Reputation и Skill Moves содержат порядковые данные в диапазоне от 1 до 5, дополненные специальной звездочкой. Таким образом, столбцы усекаются, чтобы включать только числа.

В наборе данных отсутствуют значения некоторых атрибутов игрока, но их можно заменить нулем. Причина в том, что пропущенные значения связаны с атрибутами игрока вне позиции, такими как отсутствие вратарской способности нападающего, что имеет смысл, поскольку это не его позиция. Таким образом, этим значениям NaN присваивается 0. Разделение тестовых данных включает в себя команды Bottom3, из которых команда ищет игроков.

Оценка ключевых проблем команды

Команда совершила ряд плохих подписаний, и качество молодежи в клубе также сомнительно. Из визуализации ниже видно, что потенциал роста игроков в возрасте до 25 лет в клубе сравнительно хуже, чем в других командах.

Функция Age и ответ Growth отрицательно связаны с корреляцией -0.86. Во-вторых, из-за слабой защиты и потери мяча в центре поля команда пропускает много легких голов. Эти две области могут быть областями, которые нуждаются в более свежих ногах. График ниже иллюстрирует, что потенциал роста полузащитников и вратаря является наиболее сомнительным.

Статистический анализ

Весь статистический анализ был проведен с использованием Python версии 3.9.7. Цель анализа двойная. Во-первых, исследование хотело выяснить факторы, влияющие на рост игроков. Во-вторых, прогнозировался возможный рост игроков премьер-лиги из других команд. Из-за этой двойственности, когда важны предсказание и интерпретация, мы используем линейную регрессию и ее расширения, такие как регрессия Риджа, и используем полиномиальные функции для моделирования проблемы. Коэффициенты этих уравнений регрессии использовались для интерпретации наших результатов. Производительность нашей модели оценивается по шкале R2. R2(R-квадрат) — это мера согласия для регрессионных моделей, которая объясняет изменение переменной отклика вокруг ее среднего значения.

Анализ начинается с выделения ключевых проблем, влияющих на клуб, и его сравнения с другими командами. Затем выполняется преобразование столбца для выполнения однократного кодирования категориальных признаков и масштабирования числовых. Был создан конвейер для передачи предварительно обработанных данных в модели, которые были подобраны. В качестве базового уровня использовался фиктивный регрессор, а другие модели, упомянутые выше, настраивались одна за другой на обучающих данных.

В этом исследовании методы на основе дерева, такие как RandomForest, CatBoost и XGBoost, избегаются из-за проблем с интерпретируемостью, что затрудняет их коммуникацию с более широкой аудиторией.

Полученные результаты

Выбор модели

Помня об этих двух вещах, набор данных был смоделирован на основе базового фиктивного регрессора, который дал плохие оценки обучения и проверки 0 и -0.08 соответственно. После масштабирования числовых признаков и быстрого кодирования категориальных признаков мы передали обработанные данные в регрессию гребня с параметрами по умолчанию. Оценка R-squared для модели была 0.88 для тренировочного набора и 0.82 для проверочного набора. Модель смогла объяснить 82% вариаций в проверке, установленной предсказаниями модели.

Обычная линейная регрессия дала сопоставимые результаты. Полиномиальные функции переобучили набор обучающих данных и дали плохую оценку проверки 0.053. Таким образом, регрессия Риджа является лучшим выбором здесь, поскольку она будет лучше обобщать набор тестовых данных из-за регуляризации. Полный список оценок обучения и проверки выглядит следующим образом:

Интерпретация

Используя конвейер модели, Age игрока имел коэффициент регрессора с самой высокой величиной с отрицательным знаком. Учитывая уровень значимости \alpha=0.05, коэффициент имел p-значение менее 0,05, что делало его статистически значимым для исследования. Это согласуется с нашим более ранним наблюдением, что Age и Growth имеют отрицательную корреляцию. Другие особенности с высокой величиной следующие:

  1. Международная репутация
  2. Социальный профиль игрока: Подписки, Лайки
  3. Заработная плата игрока
  4. Клуб игрока

Эти коэффициенты регрессии являются статистически значимыми и гарантируют, что модель работает лучше, чем нулевая модель.

Ниже приведена таблица с 5 наиболее высокими коэффициентами регрессии.

Прогноз на тестовом наборе

Прогнозы в тестовом наборе имели оценку R-2 0.84, что сравнимо с оценкой проверки 0.82. Это еще раз подтверждает, что модель хорошо обобщает невидимые данные. Поскольку приоритетом клуба является подписание низкооплачиваемого игрока с высоким потенциалом роста, ниже приведен список молодых игроков с высоким потенциалом роста в возрасте до 25. Рико Ричардс — недорогой молодой игрок в тройке худших команд, который решает проблемы полузащиты «Манчестер Юнайтед». Наряду с этим, у него также самый большой потенциал роста в командах зоны вылета.

Заключение

Постановка задачи заключалась в том, чтобы указать на ключевые проблемы в нынешних игроках команды «Манчестер Юнайтед», прокомментировать важные факторы роста игроков и сделать на их основе подходящий прогноз для скаутских целей.

Двумя проблемами в клубе были наличие низкорослых игроков и стареющий пул полузащитников. Оценив 806 игроков премьер-лиги, Рико Ричардс оказался хорошим молодым полузащитником, которого можно было найти в командах, склонных к вылету. Низкая текущая зарплата игрока гарантирует, что трансфер не станет бременем для финансов клуба. В то же время он обеспечивает прочность и перспективность зоны полузащиты.

Возраст сильно коррелировал с ростом футболиста, что было статистически значимо с регрессией Риджа. В дополнение к этому, международная популярность игрока и его популярность в социальных сетях также были связаны с ростом игрока. Модель регрессии Риджа имела оценку проверки R-2 0.82 и оценку теста 0.84. Она была выбрана как лучшая модель из обычной линейной регрессии и полиномиальной регрессии из-за лучшей оценки проверки. Сопоставимая оценка проверки и теста гарантировала, что модель хребта способна хорошо обобщать невидимые данные.

Дальнейшие улучшения

  • В своей текущей версии модель учитывала только игроков Премьер-лиги. Могут быть включены игроки со всего мира.
  • Атрибуты игрока вне позиции не использовались в модели, которую можно было бы включить для улучшения общей оценки игрока.

Исходный код для этого анализа можно найти в моем репозитории Github: https://github.com/rrrohit1/fifa-analysis-21.

Этот отчет был написан в рамках моего еженедельного задания на степень магистра наук о данных, Университет Британской Колумбии, Ванкувер. Курс называется DSCI 542: Коммуникация и аргументация

Рекомендации

[1] https://www.linkedin.com/in/joe-devine-21a95016a/?originalSubdomain=uk

[2] https://www.youtube.com/watch?v=5rMx3UE8XeU

[3] https://en.wikipedia.org/wiki/FIFA_21

[4] https://www.sportperformanceanalysis.com/article/2018/6/8/the-history-of-brentford-football-analytics

[5] https://sofifa.com/

[6] https://github.com/4m4n5/fifa18-all-player-statistics/tree/master/2021