Выявление значимых структур в статистике команды AFL с помощью кластерного анализа

Командный стиль и качество сложно оценить, учитывая, что это слияние отдельных игроков, их позиций и того, как они объединяются в команду и взаимодействуют с противником. Естественной отправной точкой для этого упражнения является изучение структуры информационного контента, доступного на общедоступных веб-сайтах, чтобы (1) объективно сгруппировать статистику и (2) осмысленно сформировать рассказ о команде и матче.

Кластерный анализ группирует статистику по схожести. Кластеризация - это метод машинного обучения без учителя, процесс поиска значимой структуры, объясняющих лежащих в основе процессов, генеративных функций и группировок, присущих набору данных.

Кластерный анализ - это все равно что бросать в компьютер кучу данных без ярлыков и просить его найти интересные структуры.

Результаты командного анализа показывают, что набор данных можно в целом организовать по (1) владению мячом и (2) расположению мяча относительно полузащиты. Возможность описать команды посредством сегментации может дать понимание контекста того, как команды создают высококачественные игры (действия за пределами 50-го форварда), а также количества и исполнения высокого качественные шансы (действия в воротах).

Интересно, что статистика типа «без оценки», связанная с кластером подсчета очков, - это оспариваемые оценки внутри 50 и оценки внутри 50, что более сильно касается последних двух.

Данные

Общедоступная статистика была скопирована с отдельных страниц для каждого матча от Footywire за сезоны 2015–2019 годов. Всего для анализа использовались данные почти 2000 матчей.

Необработанный набор данных включает статистику игроков, которая была собрана до совокупных показателей команд для этого анализа. Необработанные данные использовались как есть - никаких корректировок для учета командного результата не производилось. Использовалась только статистика команды - поэтому в наборе данных нет понятия «противостояние».

Статистические данные были нормализованы перед кластерным анализом - этот процесс учитывает относительный рейтинг (или расстояние от среднего) каждого показателя в своей группе за сезоны 2015–2019 гг., Следовательно, не зависит от вероятности того, что победившая команда будет иметь большее число. ударов.

Было получено несколько новых статистических данных, а статистика типа отношения (например, процент точности цели) была удалена из расчетов. Всего было использовано 37 различных характеристик.

Основные компоненты и корреляционные расстояния

Классификация набора данных требует некоторого метода вычисления расстояния или сходства между парами наблюдений. Учитывая высокую корреляцию между статистическими данными, Анализ главных компонентов (PCA) был использован для разложения переменных перед вычислением расстояния корреляции.

PCA уменьшает размерность набора данных до минимального количества независимых переменных с минимальной потерей информации. Эти новые переменные, называемые главными компонентами, соответствуют линейной комбинации исходных данных, организованной по важности вклада в дисперсию набора данных.

Кластерные расстояния рассчитываются по первым двум (или наиболее важным) основным компонентам, что объясняет около 40% дисперсии в наборе данных (первые 10 основных компонентов объясняют 80% дисперсии).

Визуально мы можем видеть по крайней мере 3–4 отдельных больших кластера - хотя некоторые из этих кластеров могут быть подвергнуты дальнейшей декомпозиции - это больше искусство, чем наука.

Интерпретация основных компонентов и кластеров

Кластерный анализ группирует переменные, которые аналогично коррелируют друг с другом, путем взвешивания корреляционного расстояния между переменными. Для кластеризации переменных использовался алгоритм k-средних.

Четыре кластера используются для интуитивного описания широкой структуры данных, которая была не совсем оптимальной, но позволила нам более легко сегментировать и описывать квадрант. Тесно коррелированные переменные представляют одну и ту же концепцию и получают почти вдвое больший вес, тем самым искажая концепцию внутри этого кластера.

Обсуждение

Я долго смотрел на результаты кластеризации. Хотя основные компоненты и кластеризация являются мощными статистическими алгоритмами, иногда интерпретация не всегда проста. Вот некоторые наблюдения:

  • Поскольку данные были нормализованы, фактические значения имеют меньшее значение, и мы интерпретируем расположение кластеров на относительной основе. Примерно кластеры занимают доминирующую область в каждом из четырех квадрантов. Центры кластеров рассчитываются на основе среднего значения всех наблюдений за 2015–2019 годы, которое показывает меньшую дисперсию, чем отдельные совпадения.
  • Первый главный компонент (ось x) - похоже, соответствует владению мячом - где отрицательные значения показывают, что мяч перемещается между игроками одной команды, а положительные значения показывают передачу мяча между командой и ее соперником (или остановку) .
  • Второй главный компонент (ось Y) кажется более трудным для интерпретации. В сочетании с первым основным компонентом более низкое значение по оси Y представляет более позитивные действия команды в зависимости от того, находится ли мяч во владении команды или нет.
  • Активность полузащиты хорошо представлена ​​диагональю, идущей от верхнего левого угла до нижнего правого угла сетки. Из этой теоретической линии мы можем различить действия в передней зоне слева от диагонали и в зоне защиты справа от диагонали. Также обратите внимание, что нападающий 50 находится в полярных противоположностях обороняющемуся 50.
  • Кластер 1 представляет собой в основном мяч на территории соперника - возможно, более тесно связанный с защитой 50.
  • Кластер 2 представляет цепочки владения или неоспоримое владение - марки и выбытия.
  • Кластер 3 представляет собой игру под давлением или спорное владение - взаимодействие с другой командой.
  • Кластер 4 - это статистика, чаще всего связанная с попаданием в квадрат ворот и, следовательно, с забитыми голами. Интересно, что статистика «без очков» сильно коррелирует с подсчетом очков (в отличие от выигрыша), находится в пределах 50, оценки внутри 50 и оспариваемые оценки.

Размышления

Результаты указывают на следующий этап анализа в виде:

  • Переменные исследовательского анализа данных прочно связаны с каждым из четырех квадрантов кластера, особенно с оценкой.
  • Создание и использование дополнительных функций из существующей статистики - например, нелинейной или пропорциональной статистики, такой как результативность бросков с владения мячом.
  • Использование статистики обеих команд, чтобы понять стиль взаимодействия между командами и их противниками в контексте определенных кластеров. (В качестве примечания: легко предсказать исход матча, когда лучшая команда играет нижней - было бы интереснее предсказать вероятность победы между командами, находящимися в беспорядочной середине).
  • Устранение нерелевантных переменных (и статистики целей) для целей модели прогнозирования без ущерба для общего качества. Кластерный анализ был полезен для понимания структуры и сегментации в наборе данных; однако не всю рассматриваемую статистику следует использовать в модели прогнозирования, учитывая высокую коллинеарность между ними - один из способов сделать это - выбрать переменные на границе, а не в пределах области каждого кластера.

В целом, алгоритм кластеризации на удивление хорошо справляется с сегментацией игр схожих типов, несмотря на мои субъективные описания. Исследовательский анализ показывает, что информацию, содержащуюся в статистике, можно в целом организовать по (1) владению мячом и (2) расположению мяча относительно центра поля.

Возможность описывать команды посредством кластеризации может также дать представление о контексте того, как команды создают высококачественные игры (действия за пределами 50-го форварда), а также количество и выполнение этих действий. качественные возможности (командные действия внутри нападающего 50).

Ссылки

  1. Кластерный анализ усложняется, Раджан Самбандам (ссылка)
  2. Руководство по программированию UC Business Analytics R: Кластерный анализ K-средних (ссылка)
  3. Руководство по программированию UC Business Analytics R: анализ основных компонентов (ссылка)
  4. PCA - Основы анализа основных компонентов, автор: Альбукадель Кассамбара (ссылка)
  5. Группировка командных стилей Йоханнеса Харкинса (ссылка)
  6. Статистика матчей Footywire (ссылка)