Оценка ключевых проблем клуба и ориентация на молодежь посредством регрессии
Краткое содержание
FIFA 21
— видеоигра в жанре футбольного симулятора, разработанная EA. Он популярен среди молодого поколения и даже среди настоящих футболистов [3]. «Манчестер Юнайтед» испытывает трудности в Премьер-лиге, высшей футбольной лиге Англии. Серия неудачных вложений игроков должна привести к их краху. В этом исследовании с веб-сайта sofifa.com
был взят набор данных о 806 футболистах, перечисленных в FIFA 21
и в настоящее время действующих в Премьер-лиге в 2021 году. Эти общедоступные данные о футболистах использовались для выявления различий в характеристиках игроков между «Манчестер Юнайтед» и другими клубами лиги. Главной проблемой в команде был низкий рост команды со стареющей полузащитой. Был сделан вывод, что возраст, международная популярность и количество подписчиков в социальных сетях были наиболее важными характеристиками, связанными с ростом игроков. Чтобы заполнить пробел в составе клуба, регрессия Риджа была лучшей моделью для прогнозирования и интерпретации роста игроков. Модель имела оценку R-2 0.84
на тестовом наборе, где Рико Ричардс был выбран в качестве подходящего полузащитника для трансфера из-за его низкой еженедельной зарплаты и высокого потенциала роста.
Введение
FIFA 21
— это популярная видеоигра, основанная на футбольном симуляторе, в которой есть полезная база данных реальных футболистов. В прошлом другая футбольная игра Football Manager
широко использовалась для поиска игроков по всему миру. Популярные футбольные команды использовали анализ данных для поиска игроков и принятия стратегических решений[4].
«Манчестер Юнайтед» был чемпионом Премьер-лиги в сезоне 2013–14, но за последние восемь лет его показатели снизились. Неправильное принятие решений и неправильный выбор набора персонала привели к этому падению. Три ключевые проблемы, которые в настоящее время препятствуют росту клуба, заключаются в следующем:
- Самый высокий фонд заработной платы игроков в лиге — 226 миллионов фунтов стерлингов.
- Стареющий состав со средним возрастом 27 лет, 10-е место в лиге, особенно полузащитники.
Повернуть свое состояние и обеспечить попадание в топ-4 очень важно для функционирования клуба, поскольку это обеспечивает дополнительный доход за счет бронирования места в Лиге чемпионов УЕФА. В настоящее время команда занимает 5-е место в лиге и демонстрирует плохие результаты в лиге. Чтобы преодолеть это, команде необходимо набирать новых молодых игроков, которые не получают высокую еженедельную заработную плату.
В этом исследовании берется набор данных о футболистах Премьер-лиги с упором на найм из худших команд в лиге, игроки которых, вероятно, перейдут в другую команду, чтобы избежать вылета. Их текущие игровые качества наряду с их потенциальным ростом оцениваются, чтобы решить, какие игроки имеют высокий потенциал роста. Модель линейной регрессии с ее расширениями хребтовой и полиномиальной регрессии используется для прогнозирования роста игроков команд низшей лиги и представления некоторых возможных вариантов на основе модели.
Методы
Дизайн исследования и исследуемая популяция
Проект был разработан для «Манчестер Юнайтед», чтобы найти футболистов премьер-лиги для своей команды. Общее количество 18 541 игрока, доступных в командах высшей лиги по всему миру, из 170 стран мира.
Для анализа выбраны футболисты английской премьер-лиги, так как было бы проще оценить их выступление и найти их.
Сбор данных
Исходные данные обновляются производителем игры FIFA
ежегодно во время выпуска игры в октябре каждого года. Они не сделали свой API доступным для публичного использования. Данные можно извлечь, купив игру для ПК и скопировав профили игроков в игровых файлах.
Эту работу выполнил веб-сайт sofifa.com
[5], который ежегодно обновляет данные для общего пользования и публикует их на своем веб-сайте. Я использовал веб-скрапинг для извлечения набора данных в табличной форме[6].
Для каждого игрока заполняются демографические данные игрока, текущая команда, национальность, позиция на поле и различные игровые атрибуты, измеряемые по шкале от 0 до 100.
Предварительная обработка данных
В исходном скопе были данные о 18 541 игроке по всему миру. В центре внимания проекта был «Манчестер Юнайтед», который играет в Премьер-лиге Англии. Таким образом, набор данных был отфильтрован, чтобы получить информацию только о командах Премьер-лиги. Выбранный набор данных содержит 806 игроков и 91 атрибут.
Детали упущенных 43 функций следующие:
- Поля, относящиеся к имени файла изображения изображения игрока, логотипу клуба и национальному флагу.
- Возможный рейтинг игрока, если он был сыгран без позиции. Этого можно избежать, поскольку основное внимание уделяется росту игрока на исходной позиции.
- Номер на футболке и уникальный идентификатор игрока
В функции Position
было 28 категорий. Я сократил категории до 4 основных сегментов:
- ГК: вратарь
- ДФ: Защитник
- Полузащитник: полузащитник
- СТ: нападающий
В наборе данных есть два столбца качества игрока: Overall
и Potential
. В целом, индивидуальный рост важен для поиска молодых талантов в лиге. Итак, новый столбец Growth
создается с использованием разницы между Overall
и Potential
игрока.
В столбце Club
указано 20 различных футбольных команд. Поскольку «Манчестер Юнайтед» является клубом высшего уровня, было бы справедливо оценить его с помощью трех лучших команд в турнирной таблице. Итак, колонка была разделена на четыре категории:
- Манчестер Юнайтед: Манчестер Юнайтед
- Топ-3: «Манчестер Сити», «Ливерпуль», «Челси».
- Внизу 3: Борнмут, Вест Бромвич Альбион, Уотфорд
- Другие: оставшиеся 13 команд.
Эта категоризация будет использоваться в визуализации в отчете.
Три столбца Weak Foot
, International Reputation
и Skill Moves
содержат порядковые данные в диапазоне от 1 до 5, дополненные специальной звездочкой. Таким образом, столбцы усекаются, чтобы включать только числа.
В наборе данных отсутствуют значения некоторых атрибутов игрока, но их можно заменить нулем. Причина в том, что пропущенные значения связаны с атрибутами игрока вне позиции, такими как отсутствие вратарской способности нападающего, что имеет смысл, поскольку это не его позиция. Таким образом, этим значениям NaN присваивается 0. Разделение тестовых данных включает в себя команды Bottom3, из которых команда ищет игроков.
Оценка ключевых проблем команды
Команда совершила ряд плохих подписаний, и качество молодежи в клубе также сомнительно. Из визуализации ниже видно, что потенциал роста игроков в возрасте до 25 лет в клубе сравнительно хуже, чем в других командах.
Функция Age
и ответ Growth
отрицательно связаны с корреляцией -0.86
. Во-вторых, из-за слабой защиты и потери мяча в центре поля команда пропускает много легких голов. Эти две области могут быть областями, которые нуждаются в более свежих ногах. График ниже иллюстрирует, что потенциал роста полузащитников и вратаря является наиболее сомнительным.
Статистический анализ
Весь статистический анализ был проведен с использованием Python версии 3.9.7. Цель анализа двойная. Во-первых, исследование хотело выяснить факторы, влияющие на рост игроков. Во-вторых, прогнозировался возможный рост игроков премьер-лиги из других команд. Из-за этой двойственности, когда важны предсказание и интерпретация, мы используем линейную регрессию и ее расширения, такие как регрессия Риджа, и используем полиномиальные функции для моделирования проблемы. Коэффициенты этих уравнений регрессии использовались для интерпретации наших результатов. Производительность нашей модели оценивается по шкале R2. R2(R-квадрат) — это мера согласия для регрессионных моделей, которая объясняет изменение переменной отклика вокруг ее среднего значения.
Анализ начинается с выделения ключевых проблем, влияющих на клуб, и его сравнения с другими командами. Затем выполняется преобразование столбца для выполнения однократного кодирования категориальных признаков и масштабирования числовых. Был создан конвейер для передачи предварительно обработанных данных в модели, которые были подобраны. В качестве базового уровня использовался фиктивный регрессор, а другие модели, упомянутые выше, настраивались одна за другой на обучающих данных.
В этом исследовании методы на основе дерева, такие как RandomForest, CatBoost и XGBoost, избегаются из-за проблем с интерпретируемостью, что затрудняет их коммуникацию с более широкой аудиторией.
Полученные результаты
Выбор модели
Помня об этих двух вещах, набор данных был смоделирован на основе базового фиктивного регрессора, который дал плохие оценки обучения и проверки 0
и -0.08
соответственно. После масштабирования числовых признаков и быстрого кодирования категориальных признаков мы передали обработанные данные в регрессию гребня с параметрами по умолчанию. Оценка R-squared
для модели была 0.88
для тренировочного набора и 0.82
для проверочного набора. Модель смогла объяснить 82% вариаций в проверке, установленной предсказаниями модели.
Обычная линейная регрессия дала сопоставимые результаты. Полиномиальные функции переобучили набор обучающих данных и дали плохую оценку проверки 0.053
. Таким образом, регрессия Риджа является лучшим выбором здесь, поскольку она будет лучше обобщать набор тестовых данных из-за регуляризации. Полный список оценок обучения и проверки выглядит следующим образом:
Интерпретация
Используя конвейер модели, Age
игрока имел коэффициент регрессора с самой высокой величиной с отрицательным знаком. Учитывая уровень значимости \alpha=0.05
, коэффициент имел p-значение менее 0,05, что делало его статистически значимым для исследования. Это согласуется с нашим более ранним наблюдением, что Age
и Growth
имеют отрицательную корреляцию. Другие особенности с высокой величиной следующие:
- Международная репутация
- Социальный профиль игрока: Подписки, Лайки
- Заработная плата игрока
- Клуб игрока
Эти коэффициенты регрессии являются статистически значимыми и гарантируют, что модель работает лучше, чем нулевая модель.
Ниже приведена таблица с 5 наиболее высокими коэффициентами регрессии.
Прогноз на тестовом наборе
Прогнозы в тестовом наборе имели оценку R-2 0.84
, что сравнимо с оценкой проверки 0.82
. Это еще раз подтверждает, что модель хорошо обобщает невидимые данные. Поскольку приоритетом клуба является подписание низкооплачиваемого игрока с высоким потенциалом роста, ниже приведен список молодых игроков с высоким потенциалом роста в возрасте до 25
. Рико Ричардс — недорогой молодой игрок в тройке худших команд, который решает проблемы полузащиты «Манчестер Юнайтед». Наряду с этим, у него также самый большой потенциал роста в командах зоны вылета.
Заключение
Постановка задачи заключалась в том, чтобы указать на ключевые проблемы в нынешних игроках команды «Манчестер Юнайтед», прокомментировать важные факторы роста игроков и сделать на их основе подходящий прогноз для скаутских целей.
Двумя проблемами в клубе были наличие низкорослых игроков и стареющий пул полузащитников. Оценив 806
игроков премьер-лиги, Рико Ричардс оказался хорошим молодым полузащитником, которого можно было найти в командах, склонных к вылету. Низкая текущая зарплата игрока гарантирует, что трансфер не станет бременем для финансов клуба. В то же время он обеспечивает прочность и перспективность зоны полузащиты.
Возраст сильно коррелировал с ростом футболиста, что было статистически значимо с регрессией Риджа. В дополнение к этому, международная популярность игрока и его популярность в социальных сетях также были связаны с ростом игрока. Модель регрессии Риджа имела оценку проверки R-2 0.82
и оценку теста 0.84
. Она была выбрана как лучшая модель из обычной линейной регрессии и полиномиальной регрессии из-за лучшей оценки проверки. Сопоставимая оценка проверки и теста гарантировала, что модель хребта способна хорошо обобщать невидимые данные.
Дальнейшие улучшения
- В своей текущей версии модель учитывала только игроков Премьер-лиги. Могут быть включены игроки со всего мира.
- Атрибуты игрока вне позиции не использовались в модели, которую можно было бы включить для улучшения общей оценки игрока.
Исходный код для этого анализа можно найти в моем репозитории Github: https://github.com/rrrohit1/fifa-analysis-21.
Этот отчет был написан в рамках моего еженедельного задания на степень магистра наук о данных, Университет Британской Колумбии, Ванкувер. Курс называется DSCI 542: Коммуникация и аргументация
Рекомендации
[1] https://www.linkedin.com/in/joe-devine-21a95016a/?originalSubdomain=uk
[2] https://www.youtube.com/watch?v=5rMx3UE8XeU
[3] https://en.wikipedia.org/wiki/FIFA_21
[6] https://github.com/4m4n5/fifa18-all-player-statistics/tree/master/2021