ЧАСТЬ I

В середине декабря 2019 года состоялся финал женской футбольной лиги между «Раядас» и «Тигрес». Это был матч-реванш за титул для обеих команд. Первый матч закончился со счетом 1–1. Чемпион определится за последние 90 минут.

Райадас выиграл с одиноким голом. Чемпионы, наконец, лиги. На той же неделе стало известно, что игроки будут вознаграждены iPad за достижение титула. Две недели спустя мужчины выиграли титул чемпиона среди мужчин после победы над Америкой, хотя призом, который они получили, был чек на 2 миллиона долларов.

Этот проект возник из-за необходимости понять, какие факторы учитываются профессиональными клубами Мексики при выплате своим профессиональным игрокам-женщинам средней месячной зарплаты в размере 4,2 тысячи песо (223 доллара в месяц). Это может показаться тривиальным, но речь идет о женщинах, выигравших чемпионат лиги, у которых есть права на телевидение и спонсоры, которые привержены продвижению новой категории футбольного рынка.

Деньги на столе, почему бы не позаботиться о развитии и продвижении женской лиги с успехом, который показал каждый турнир? Это действительно важная вещь для анализа.

Существуют не только различия в призах, присуждаемых клубами своим игрокам в Мексике, но и реальный разрыв в заработной плате в спорте. Игрок первого дивизиона получает среднемесячную зарплату в размере 635 000 песо (34 000 долларов США в месяц), а игрок более низких категорий, таких как долларов США), а Sub 17 зарабатывает по 3 000 песо (160 долларов США) в среднем в месяц.

Это подчеркивает, что профессиональная женщина-игрок в Мексике ценится так же, как и полупрофессиональный игрок. Не только огромный разрыв в заработной плате, но и способ сделать футбольное шоу прибыльным для клуба, когда речь идет о мужчинах и женщинах, от заработной платы до получения дохода, и это лишь несколько примеров.

В процессе изучения темы возникли некоторые вопросы:

  • Как получается, что полупрофессиональный игрок зарабатывает почти столько же, сколько профессиональный игрок женского пола?
    • Как получается, что лига развития, не имеющая телевизионных прав или продажи билетов, является прибыльным бизнесом для команд?
    • Почему лига развития имеет почти неограниченное финансирование, а профессиональная женская лига – нет, несмотря на наличие спонсоров и доход от продажи товаров?
    • Как возможно, что чемпионки женской лиги получают Ipad в качестве приза за свои достижения? усилие и игроки мужской лиги 2 миллиона долларов?

Идея проекта была проста: работать с базой данных, обучать модель и прогнозировать стоимость и рыночную зарплату игроков. Если я смогу определить, сколько они должны зарабатывать в месяц и какой должна быть их оценка на рынке, то это упражнение можно повторить для других видов спорта, чтобы узнать, насколько велик разрыв в заработной плате.

Это первая из трех поставок, в которых я подробно объясню процесс, которому я следовал, чтобы спрогнозировать рыночную стоимость и зарплаты для 15 профессиональных игроков-женщин.

В частности, в этой статье будет рассказано о базе данных, манипулировании переменными, базовом статистическом анализе и о том, как я сделал геолокацию 651клубов с помощью Folium.

Извлечение, преобразование и загрузка (ELT) базы данных FIFA 19

Первым шагом всего упражнения была загрузка базы данных Kaggle FIFA 19 (https://www.kaggle.com/karangadiya/fifa19).

После загрузки я импортировал его в Jupyter Notebook, чтобы начать анализировать тип данных, с которыми я буду работать, и количество отсутствующих значений в базе данных.

Следующим шагом было манипулирование именами столбцов и заполнение некоторых пустых полей в базе данных.

Выполните некоторые преобразования единиц измерения и очистку данных…

Создайте несколько новых переменных и, наконец, установите окончательную базу данных для всех анализов, которые мы будем выполнять.

База данных содержит 2 столбца, представляющие особый интерес: зарплата и рыночная стоимость почти 18 207 игроков. Вдобавок к этому у меня была информация о физических характеристиках и способностях этих игроков, поэтому выполнить «экстраполяцию» на игроков женского пола могло быть чем-то «простым». После того, как база была очищена, информация использовалась для создания графики, которая давала часть общей информации.

Инсайты

База данных игр FIFA 19 содержит информацию о 651 клубе и 18 207 профессиональных игроках. Важно отметить, что общее количество игроков не содержится во всем мире, но позволяет узнать физические и личные характеристики группы выдающихся игроков.

Первый сгенерированный график основан на распределении позиций каждого игрока в игре. В частности, наиболее частая позиция (ST) нападающие, за ней следуют (GK) вратари и (CB) центральные защитники.

Этот график показывает нам, что большинство игроков в среднем прилагают одинаковые усилия в атаке или защите. Это логично наблюдать, потому что игроки прикрывают определенную позицию, и, если в команде нет травмированного или удаленного игрока, это усилие будет увеличено, чтобы заполнить недостающую вакансию. Если бы это было не так, ни один игрок не выбежал бы на поле, пытаясь закрыть более одной позиции.

Разнообразие стран, представленных в игре, совпадает с тем, что мы наблюдаем в реальности. Однако важно отметить, что игра необъективна, поскольку по коммерческим причинам количество содержащегося оборудования сосредоточено в Англии, Германии, Испании. strong>, Аргентина, Франция, Бразилия и Италия и это лишь некоторые из них.

Распределение зарплатной массы сосредоточено у нескольких игроков, которых мы будем называть «Суперзвезды», поэтому независимо от страны, должности или физических характеристик это означает, что игроки в этой группе имеют зарплату почти в 6 раз выше, чем у среднего игрока.

По весу игроков мы видим, что в среднем они находятся в диапазоне от 70 до 80 кг, что может, и в зависимости от их роста, было бы преимуществом быть худее, чтобы практиковать это. спорт, так как скорость и умение вести мяч являются ключевыми моментами при передаче, предвосхищении игры или забивании гола.

Что касается роста игроков, мы видим, что большинство игроков ростом менее 1 метра 60 см. Немногие игроки имеют рост около 2 метров и обычно являются защитниками и вратарями.

Возраст игроков в основном сосредоточен в возрасте от 20 до 30 лет, хотя есть и очень молодые игроки (16 лет) или некоторые игроки постарше (43 года), которые активно участвуют в игре. база данных.

На следующем графике показана корреляция между переменными, содержащимися в DataFrame. Мы можем наблюдать, что характеристики, рассматриваемые как навыки, имеют высокую степень корреляции

Когда мы анализируем национальность высших лиг, мы наблюдаем большое количество иностранных игроков. Вышеупомянутое создает высокую конкуренцию с местными игроками и, в некоторых случаях, позволяет создать динамику, при которой уровень конкуренции достаточно высок, и мы находим лиги с чрезвычайно интересными матчами.

Из-за этой конкуренции большинство клубов стремятся проанализировать определенные переменные, которые позволяют им узнать потенциальную производительность, которую игрок может показать на поле, чтобы принять решение о ставке на него.

В FIFA 19 есть предварительно запрограммированный потенциал игрока, который определяет, насколько быстро должны расти их характеристики и когда они должны останавливаться в своей профессиональной карьере. Так мы узнаем, у кого из игроков есть все, чтобы стать следующей суперзвездой.

Хотя он служит только в качестве руководства, он может быть точным руководством, но не гарантируется, что любой конкретный игрок сможет полностью реализовать свой потенциал.

Множество различных факторов в игре могут сдерживать рост игрока, например, ограниченное игровое время, практически полное отсутствие тренировок, плохая форма или постоянные травмы. Он также может быть изменен при переходе игрока в новый клуб, а может легко снизиться из-за отсутствия ритма, личных обстоятельств или уровня конкуренции новой лиги.

С другой стороны, можно наблюдать, что игроки с высокой общей стоимостью формируют высокую рыночную стоимость и достигают своего пика в возрасте 26–27 лет, а затем начинают падать.

Это реальность, клубы надеются воспользоваться лучшими годами своих игроков, а затем договориться о более низкой зарплате или даже о продаже. Эти обстоятельства вынуждают многих игроков выбирать между игровыми минутами с более низкой зарплатой или размышлениями о завершении карьеры.

Наконец, последний график показывает нам, что по прошествии года и годы, и потенциал сходятся, что можно назвать профессиональным пиком, близким к 29 годам.

С этого момента физическое состояние стабилизируется и начинается постепенный спуск, что является нормальным и прекрасно наблюдаемым у игроков.

Фолиум

Способ геолокации клубов, присутствующих в базе данных, был непростым.

Названия клубовчасто были сокращены, без некоторых аббревиатур или, в худшем случае, были идентичны названию города, континента или какого-либо мифологического лица.

Это помешало мне выполнить очистку веб-страниц. Почему?

Мне нужно было найти широту и долготу каждого клуба. В идеале используйте инструмент веб-скрейпинга, который зацикливает список клубов, ищет их в Википедии и получает информацию. Легко, верно?

Как я упоминал ранее, способ записи клубов в базу данных сделал процесс получения широты и долготы головной болью.

Вот пример

Название клуба в базе данных — Гвадалахара, но в Мексике он известен как Чивас де Гвадалахара или просто Чивас. Если вы наберете это в Google, вы заметите, что результат относится к городу, а не к клубу.

Если мы сейчас поищем никнейм клуба, то результат будет тот, который нам нужен.

Поскольку невозможно узнать, как люди узнают или называют свой клуб, процесс восстановления широты и долготы был выполнен вручную.

Как только информация была восстановлена, следующим шагом было создание новой базы данных с ключевыми переменными. Переменные были:

  • Название клуба
  • Название стадиона
  • Страна
  • Название лиги
  • Континент
  • Широта
  • Долгота

Результат в Folium выглядит так

Это первая часть моего упражнения. Если вы хотите узнать больше о проекте, приглашаю вас посетить мой проект в https://jmcass.github.io/SportsAnalytics.

Не пропустите вторую часть этой статьи, где я расскажу о системе рекомендаций, которую я использовал, чтобы узнать начальный уровень заработной платы и рыночные значения для игроков.

Спасибо, что прочитали и поделились!