Летом 2018 года, после последнего успешного сезона в «Реале», один из самых известных футболистов Криштиану Роналду решил перенести свой необыкновенный талант в Турин, Италия, и стать нападающим «Ювентуса». Однако, по сравнению с радостной атмосферой в Турине, «Реалу» осталось срочно заполнить вакансию, чтобы он по-прежнему добивался отличных результатов в лигах.

Нам легко перечислить нескольких игроков, которые, кажется, могут заменить Роналду, поскольку в мире очень много хороших нападающих. Но можем ли мы найти альтернативу Роналду с точки зрения науки и данных? К счастью, существует видеоигра под названием FIFA, которая детально оценивает способности профессиональных футболистов из высших лиг планеты, собирает и оценивает их в свой набор данных в игре. Поскольку FIFA всегда рекомендуется большинством футбольных фанатов во всем мире, мы считаем справедливым адаптировать набор данных из последней версии этой серии, FIFA 19, чтобы выяснить, кто может быть альтернативой Криштиану Роналду. (AKA CR7)

Данные

Наши данные взяты из коллекции Kaggle dataset. Весь набор данных содержит обширную информацию о 18207 игроках, начиная от зарплаты, национальности и заканчивая статистикой результатов. Здесь мы рассматриваем только кандидатов этого проекта, которые находятся на тех же или аналогичных должностях с Криштиану, и позиции кандидатов включают 'ST' (нападающий), 'LS' (левый нападающий) и 'RS' (правый нападающий) .

После очистки аналогичных позиций наш набор данных теперь имеет форму (2562,89). Однако мы сосредотачиваемся только на статистике производительности, чтобы мы могли провести анализ, сравнивая другие с CR7.

Моделирование

Конечно, мы можем использовать всю статистику производительности и просто вычислить несходство, используя разные измерения расстояния, в зависимости от наших собственных предпочтений. Но есть две проблемы:

  • 1, мы можем в конечном итоге найти игроков, показатели производительности которых не важны для отбираемых нападающих, однако те игроки, которые считаются неважными, близки к неважным характеристикам CR7.
  • 2, мы можем найти тех, чьи характеристики близки к CR7, но общая способность не близка к CR7.

Поэтому мы решили использовать регрессию лассо для выбора признаков.

Регрессия лассо, по сути, представляет собой модель линейной регрессии и модель контролируемого обучения, но одна особенность регрессии лассо - это штрафной член, добавляемый к регрессии. Добавление штрафного члена к коэффициентам поможет решить проблему переобучения, поскольку теперь модель будет наказываться по отношению к простой модели, однако теперь модель будет более смещенной по сравнению с моделью линейной регрессии (компромисс смещения-дисперсии). Подобно регрессии лассо, существует еще одна модель линейной регрессии, также ориентированная на штрафные условия - регрессия Риджа.

И регрессия гребня, и регрессия лассо наказываются моделью, однако регрессия гребня наказывает через норму L2, тогда как лассо наказывает через норму L1. Благодаря свойству нормы L1, регрессия Лассо может сжимать коэффициенты определенных признаков до нуля, что позволяет нам проводить выбор признаков.

Поиск по лямбда-сетке

Есть один параметр, который нам нужно предварительно установить - лямбда (называемый альфа в sk-learn), параметры, которые необходимо предварительно настроить, называются гиперпараметрами, примеры: k в knn, dropout 、 скорость обучения в нейронной сети. Распространенный метод поиска гиперпараметров - перекрестная проверка плюс поиск по сетке, случайный поиск или поиск Байеса.

Здесь мы просто будем использовать Gridsearch, так как у нас есть только один параметр для настройки.

С помощью поиска по сетке мы нашли лучший результат alpha, сравнив результаты теста. Лучшая альфа должна быть той, которая позволяет нам достичь самого низкого RMSE, здесь мы можем проверить таблицу выше, и лучший результат - результат в первой строке.

Выбор функции лассо

Прежде чем мы упомянули выбор функций с помощью регрессии лассо, здесь мы проведем регрессию лассо более 500 раз для различных данных с разбиением по случайному состоянию. Благодаря тому же единице для всех функций, мы можем суммировать эти 500-кратные результаты и ранжировать их, получая рейтинг важности функций.

Цель выбора функции регрессии лассо - найти наиболее релевантные функции, относящиеся к общему; затем мы можем использовать эти функции для создания кластеров и поиска ближайшего к Криштиану Роналду игрока (ов). Конечно, мы можем начать с построения кластера, не проводя выбор функций, но тогда мы можем увидеть, что менее релевантная статистика (функции) помогает нам найти важные.

Для выбора функций, как правило, есть две большие группы: выбор контролируемых функций и неконтролируемый выбор функций (например, PCA). Трудно судить, какой из них лучше, а какой нет. Здесь мы используем один лассо; это контролируемый выбор функций, потому что мы считаем, что должны найти наиболее важные функции в отношении возможности Всего.

Изучение выбранных функций

После выбора есть 12 функций, которые мы считаем важными. Функции "Завершение", "Позиционирование", "Контроль мяча" и "Сила удара" являются самые важные четыре из нашего результата, все они имеют значение более 50. Это не удивительно для нас, потому что эти четыре характеристики на самом деле являются важными качествами для хорошего нападающего, особенно способность добивать, который занимает первое место. важность в нашем анализе. Кроме того, шесть характеристик, значения которых превышают 20, это «Реакция», «Точность игры», «Ведение», «Короткая передача», «Скорость спринта» и «Сила». Эти особенности также незаменимы для нападающих. Еще две важные функции - это «ускорение» и «дальний удар», которые также имеют большое влияние на результативность нападающего.

Одним словом, наши результаты вполне логичны. На самом деле он выбирает самые важные особенности нападающего. Между тем, важные способности таких игроков, как полузащитник и защитник, такие как «Длинный пас», «Видение» и «Обычный отбор», имеют незначительное значение. Таким образом, у нас есть веские основания полагать, что для нас будет справедливым использовать эти 12 функций для проведения следующего анализа.

Последний шаг - кластеризация

После того, как мы добрались до 12 функций, следующим шагом будет поиск игроков, близких к CR7. Кластеризация была бы идеальным методом для этого параметра, однако даже для кластеров есть несколько методов, из которых мы можем выбрать. Кластеры K-средних, Иерархическая кластеризация - общие методы. Сравните с кластерами K-средних, которые находят лучшее k для кластеризации данных в k групп, иерархическое начало строит кластер либо сверху вниз, либо снизу вверх. Для этого параметра, поскольку мы заботимся только о конкретном игроке, я предпочитаю использовать агломеративную иерархическую кластеризацию, которая обрабатывает все данные как один кластер, а всех других игроков как другой кластер и строит на этом.

Слева часть полученной дендрограммы, способ извлечения кластеров зависит от того, где вы срезаете дерево. если отсечь снизу, то лучшей альтернативой CR7 будет Дж. Бейл, а если отсечь на один уровень выше, мы обнаружим, что Л. Суарес, С. Агуэро, CR7 и Дж. Бейл принадлежат к той же группе. (полную дендрограмму см. в Github Jupyter Notebook)

Заключение

Вот и наш окончательный результат! У нас есть три потенциальных кандидата: Гарет Бейл, Серхио Агуэро и Луис Суарес. И мы можем сделать вывод, что игрок, который больше всего похож на Криштиану Роналду, - это Дж. Бэйл. Это очень интересная находка. Лучшая альтернатива для Криштиану на самом деле в команде. На радарной диаграмме мы также примерно видим, что у Бейла больше всего общего. Мы предполагаем, что есть некоторые причины, по которым «Реал Мадрид» не очень хочет найти альтернативу Роналду, и Бэйл на самом деле является одним из них. И многие люди считают, что Бейл - самая важная часть будущего Реала, в том числе председатель клуба Флорентино, он ни разу не поддерживает Бэйла, оставшегося в клубе, даже его имя обычно не появляется в первом составе во время матча. последний сезон.

Что касается двух других игроков, Агуэро и Суареса, то факт, что Флорентино не имеет возможности привести их на стадион Бернабеу в последнее время. Может быть, поэтому клуб решает сделать Бэйла лидером команды после ухода Криштиану. И будет справедливо и интересно сказать, что наш анализ фактически подтверждает решение клуба.

Эта статья - результат совместной работы между Yuhui-Luo и Zhixin-Lin. Мы стремимся использовать методы анализа данных и машинного обучения, чтобы изучать и рассказывать больше историй.

Мы приветствуем комментарии по поводу улучшений, и если у вас есть интересные идеи, сообщите нам, мы будем рады над ними работать!

Версия кода этой работы доступна на GitHub.