Использование машинного обучения для переопределения позиций в НБА

С течением времени баскетбол продолжает развиваться. Трудно представить, но игра началась без дриблинга, а трехочковый бросок - это современное изобретение, о введении которого многие люди, живущие сегодня, могут вспомнить. Помимо формальных изменений правил, неформальные тенденции влияют на состав команд, какие навыки ценятся и как игроки играют в игру. В сегодняшнюю эпоху разрастания очевидно, что традиционные позиции центрового, нападающего и защитника - это архаичные ярлыки, которые мало что делают для описания функций игроков в игре. Сегодня центровой может поднять мяч на площадку (где разыгрывающий?), А защитник может отскочить лучше, чем нападающий. Хотя может показаться, что позиции должны быть просто выброшены и от любого игрока следует ожидать выполнения каких-либо действий на элитном уровне, не похоже, что мы вступили в беспозиционную эпоху. Во всяком случае, игроки стали более специализированными (за пределами пяти классических позиций). Таким образом, в статьях обычно делаются новые попытки определить новые позиции, которые более точно описывают различные способы специализации игроков в игре.

Как и в любой игре на ловкость, игроки играют по-разному. В некотором смысле свободный стиль игры, который мы признаем игрокам (ведущий бомбардир или трехочковый специалист), подобен личностям. игры. Каждый игрок с большей вероятностью будет делать одни дела и с меньшей вероятностью, чем большинство игроков. Эти тенденции подобны чертам характера, определяющим, как игрок играет в игру. Некоторые из них мы по своей природе легко замечаем при просмотре (например, из-за дуги Джеймс Харден, вероятно, попытается отступить, а Дэнни Грин, скорее всего, поймает и выстрелит), но есть вероятные модели игры, которые не всегда видны. Для этих скрытых игровых паттернов можно использовать машинное обучение для математического вывода этих паттернов из измеренных данных, группируя игроков по категориям схожей игры.

Предыдущие исследования и предлагаемая модель

Эта идея не нова. За последние двадцать лет появилось много статей с намерением сгруппировать игроков в соответствии с алгоритмом и дать результирующему набору новых позиций описательные метки. В статьях, опубликованных из Medium в академических журналах, предлагается от шести до тринадцати новых позиций с использованием различных функций (статистика игроков) и алгоритмов кластеризации. Эта бумага другая.

Во-первых, в большинстве предыдущих исследований использовался PCA (анализ основных компонентов), за которым следует кластеризация k-средних, алгоритм машинного обучения, который объединяет каждое наблюдение в один класс. Однако этот метод не является вероятностным, поэтому нельзя легко использовать результаты для прогнозирования местоположения новых наблюдений. Это краткое описание прошлого. В качестве альтернативы в этой статье используются возможности вероятностных моделей смеси (точнее, модели гауссовой смеси). GMM может хорошо моделировать нелинейные отношения и обеспечивает оценку класса (вероятность принадлежности к классу) для каждого класса для каждого игрока. Таким образом, он выводит вероятность того, что игрок соответствует каждой новой позиции (например, насколько похож Леброн на других игроков в этой группе?). GMM также дает оценочные параметры для каждого класса (поэтому модель можно использовать для получения оценок местоположения для будущих данных). Таким образом, при рассмотрении драфта (или потенциального подписания контракта с торговым / свободным агентом) статистика игрока может быть введена в модель, и будут даны оценочные вероятности класса. Это может кардинально изменить состав команд, помогая генеральным менеджерам лучше понять, как новый игрок впишется в других.

Во-вторых, предыдущее исследование использует ограниченное количество функций (статистику) и чрезмерно зависит от традиционных метрик шкалы. Благодаря передовому программному обеспечению для отслеживания игроков, отслеживающему движения игроков и мячей, теперь у нас есть новые показатели, которые измеряют, как игроки взаимодействуют и играют в игру, почему бы не использовать их? Пока функции предоставляют дополнительную информацию, которая может объяснить вариации, и не слишком коррелированы друг с другом, они могут помочь нам найти различия в стиле игры, не заметные иным образом для человеческого глаза (или слишком обыденные для нас, чтобы их активно отслеживать, например экраны ведущие к заброшенным броскам). Этот документ включает гораздо больший набор функций, чем предыдущие исследования, при сохранении целостности каждой функции (метрики не объединяются), чтобы помочь в понимании шаблонов, создаваемых моделью.

Таким образом, вместо еще одной простой описательной попытки переопределить позиции игроков по сравнению с прошлыми сезонами в этой статье представлен согласованный набор новых позиций, которые можно легко понять с точки зрения их различий (что игроки в классе делают чаще / реже, чем другие) и могут использоваться для прогнозирования членства в классе с новыми данными.

Методология

Данные были собраны на основе общих результатов регулярного сезона NBA.com за последние пять сезонов (с 2015–16 по 2019–20 годы) по 150 переменным на уровне игроков. Статистические данные были преобразованы в сопоставимые метрики (за 36 минут) для равномерного сравнения на разных уровнях использования. Чтобы не допустить искажения данных теми, у кого ограничено количество минут, оставались только игроки, которые появлялись как минимум в 10 играх и в среднем играли минимум 5 минут за игру. Эти шаги предварительной обработки привели к окончательному набору данных, который использовался для анализа, и содержал 2234 наблюдения.

Уникальным для этого исследования является широта набора функций. Включены переменные, которые измеряют оба конца площадки (нападение, защита), движение (расстояние, скорость), местоположение (где производятся выстрелы, где происходит защита), пасы (пасы отправлены, пасы получены), владение (время с мяч), hustle (отклонения, восстановление свободного мяча) и многое другое. Включение почти на 50 функций больше, чем во многих предыдущих анализах, позволяет создать более детальную систему определения того, как игроки на самом деле играют в игру. Включая данные о местонахождении и перемещении, можно более подробно представить истинный стиль игры, чем можно представить с помощью традиционных показателей счета (подборы, передачи и т. Д.).

Чтобы уменьшить набор функций (многие из 150 функций по существу избыточны), была построена корреляционная матрица и переменные с корреляциями больше, чем | .8 | были рассмотрены более подробно. Переменные, которые по сути являлись дублирующими функциями, были удалены (например, рост игрока и вес игрока сильно коррелированы; сохранение только роста игрока сохраняет эту прогнозную информацию в модели и снижает мультиколлинеарность между функциями). Урезание функций на этом этапе и применение человеческой интуиции (знание того, как проходит игра и может ли быть полезна переменная), оставили окончательный набор из 80 функций.

Затем эти 80 функций были оценены по 2234 наблюдениям с помощью кластеризации на основе моделей. В частности, для подгонки гауссовских моделей конечной смеси к 80-мерному набору данных использовался алгоритм максимизации ожидания. Никакого определенного количества кластеров заранее не прогнозировалось, поэтому модели были приспособлены для оценки размеров классов от трех до одиннадцати.

Полученные результаты

Оценка индексов соответствия модели (которую можно выполнить с помощью GMM, но не k-средних) выявила, что модель из десяти кластеров лучше всего соответствует данным. Но насколько уверена модель в своих прогнозах членства в классе? Очень уверен. Было предсказано, что почти все игроки принадлежат к своему классу с вероятностью более 90%. Учитывая статистику игрока по 80 переменным, описывающим его игру, эта модель может уверенно разместить его на одной позиции из 10 определенных.

Так как же выглядят эти позы? Глядя на три традиционных положения этих игроков (классифицированных на NBA.com), которые теперь разделены на десять новых позиций, мы можем увидеть, как модель, похоже, следует традиционной идее (группы, как правило, имеют больше одной традиционной позиции, чем другой), но также находит более конкретные способы дифференцировать игроков (представители каждой традиционной позиции можно найти почти на каждой из десяти новых позиций).

10 новых позиций

Чтобы понять, какие закономерности модель обнаружила в математике, нам нужно посмотреть, что каждая позиция делает значительно лучше и значительно хуже, чем в среднем по лиге. На следующих диаграммах (по одной для каждой новой позиции) из 80 функций, включенных в модель, нанесены 10 верхних и 10 нижних функций каждой позиции, со значениями, представляющими стандартные отклонения выше и ниже означает (средний игрок лиги). Подобно инвентаризации личности, это помогает нам визуализировать, какие черты составляют каждую из наших десяти новых позиций. В качестве быстрого ориентира в таблице ниже указано новое имя и список игроков, которые в настоящее время классифицируются по каждой позиции.

1. Трехместный-двухместный

Король игры ISO, игрок трипл-дабл-угроз делает все в нападении. Он набирает значительные очки в играх ISO, но также использует это внимание, чтобы передать мяч товарищам по команде, поскольку он намного выше среднего по лиге как по фактическим передачам, так и по передачам, которые могли бы стать передачей (если бы партнер по команде сделал бросок). Эта угроза забитого мяча также разбегается по площадке при быстром отрыве, дает много штрафных бросков и, скорее всего, приведет к троекратным броскам при удержании мяча, а не сразу после передачи.

Однако игроки на этой позиции мало двигаются и не особенно быстро защищаются. Фактически, почти все их нижние черты связаны с тем, что они мало что делают в защите (защита обода ниже среднего, скорость в защите, пройденное расстояние в защите, личные фолы). Не говори Леброну, но, видимо, он такой же защитник, как Джеймс Харден ...

Представительные игроки

Леброн Джеймс, Джеймс Харден, Лука Дончич, Рассел Уэстбрук

2. Где угодно

Еще один бомбардир ISO, этот игрок набирает очки с помощью множества ходов, хотя они, скорее всего, начинают с периметра. Этот бомбардир доминирует в атаке, получает значительно больше передач от товарищей по команде и держит мяч большую часть времени для броска. Тем не менее, их сложно защищать, так как они забивают разными способами, от выхода за пределы экрана, подтягивания прыгунов до попадания в корзину. При всем этом внимании они также вовлекают своих товарищей по команде более продуктивно, чем большинство других игроков, посредством передач и потенциальных передач, хотя пасы товарищам по команде от этого бомбардира редко бывают слишком большими (большинство их передач идет трехочковым стрелкам, поэтому не забывайте об этом). не попадитесь на эту фальшивую аллей-уп, этот бомбардир не собирается сдаваться).

Однако этот ориентированный на результат игрок не увеличивает владение своей командой, редко добиваясь подборов в атаке или даже имея возможность легко отскочить (что не дает им быть угрозой трипл-дабл). Это, по-видимому, ключевое различие между этими первыми двумя позициями. Оба являются королем игр ISO и явно доминируют в атаках своих команд, одновременно «звоня» в защиту. Однако этот бомбардир не так важен для его команды, поскольку он еще не осознал важность захвата нескольких лишних владений для своей команды (в форме подборов). Скажите Кави, чтобы он взял еще несколько досок, и он сможет перейти в статус Triple-Double.

Представительные игроки

Кавай Леонард, Джимми Батлер, Дэмиан Лиллард, Кемба Уокер, Крис Пол, Стивен Карри, Бен Симмонс, Кайри Ирвинг, Джамал Мюррей, Трей Янг

3. Джемпер

Вместо того, чтобы ехать в корзину или вовлекать своих товарищей по команде посредством передач, этот игрок использует свои игры с ISO выше среднего, чтобы стрелять в прыгунов. Будь то подтягивание или пятно, из-за дуги или изнутри, вам лучше поднять руку, а затем боксировать, потому что этот парень, вероятно, попытается выстрелить над вами. Этот игрок с тяжелыми минутами также хорошо бегает по площадке (набирает значительные очки за быстрые отрывы и потери передач), так что вам также лучше вернуться в защиту, когда они находятся на паркете, или вы, вероятно, заплатите.

Примечательно, что этот бомбардир не любит экраны / пик-н-роллы, поэтому, если вы их охраняете, вам следует сосредоточиться на том, чтобы держать их перед собой. Кроме того, они вряд ли забьют вас в краску или в локоть (скорее всего, они переместят вас в одно из своих любимых мест, чтобы вместо этого выстрелить буквой J). Этот бомбардир не делает слишком много подборов в нападении и вряд ли будет защищать кольцо. Наконец, не обращайте внимания на паттерны этого плеера, их характеристики находятся в диапазоне ниже одного стандартного отклонения, как выше, так и ниже среднего. Скажите KD, что ему лучше еще немного перемешать, потому что он становится предсказуемым.

Представительные игроки

Кевин Дюрант, Бадди Хилд, Паскаль Сиакам, Маркус Моррис старший, Маркус Смарт, Эндрю Виггинс, Пол Джордж, Клей Томпсон, Крис Миддлтон, Кайл Кузма

4. Денежный шар

Живя по периметру, этот маэстро с тремя точками зрения не собирается тебя наезжать. Вместо этого он либо поймает пас и отправит его к ободу, либо заметит вас, почти наверняка из-за дуги. Это делает его эффективным бомбардиром (по очкам за касание). Но он также играет в защите, покрывая много площадок (вероятно, хорошо отыгрывая смену владения) и отбивая длинные подборы (возможно, свои собственные?).

Скорее всего, из-за своей склонности к трехболам, этот арк-ассасин не получает много фолов и не забивает в краске (вряд ли он вас атакует). Он может быть активен в защите, но вряд ли сможет заблокировать ваш удар. Кроме того, в нападении он мало получает мяч (низкие касания), поэтому, когда он это делает, он, скорее всего, пробьет (совершенные низкие пасы). Дэнни Грин стреляет по тройкам? Какие?

Представительные игроки

Дэнни Грин, Дж. Дж. Реддик, П.Дж. Такер, Джей Краудер, Ройс О’Нил, Лэндри Шамет, Кайл Корвер

5. Первый проход

Этот игрок, который играет с мячом в первую очередь, похож на традиционного разыгрывающего в прошлом. Он ведет нападение (максимальное время владения мячом, полученные передачи, время владения мячом), но забивает первым. Он с гораздо большей вероятностью нападет на вас, чем заметит и прострелит вас, и своими передачами он создает угрозу для своих товарищей по команде.

Маловероятно, что он выставит вас наверх или получит пас в краске (он когда-нибудь попадал в корзину?), Его склонность избегать краски также снижает его способность обеспечивать подборы как в нападении, так и в защите (ограниченные подборы). Скажите Пэтти Миллс, что ему нужно снимать больше, потому что модель говорит, что он очень похож на Лонзо Болла ...

Представительные игроки

Рики Рубио, Пэтти Миллс, Кайл Лоури, Лонзо Болл, Рэджон Рондо, Патрик Беверли, Кори Джозеф, Шай Гилгеус-Александр

6. Защитник

Что отличает этого игрока, так это его защита. Они покрывают огромную территорию и делают это с высокой средней скоростью, что приводит к перехватам и сбоям в оборотах.

Однако в нападении они с большей вероятностью, чем другие, сделают оспариваемые тройки (возможно, это не лучшая идея), и, соответственно, редко передают мяч своим товарищам по команде (значительно ниже среднего по сделанным передачам, передачам и потенциальным передачам). Они часто забивают в краске, но стреляют с поля значительно ниже среднего (опять же, может быть, им стоит стрелять меньше троек). Возможно, из-за плохой стрельбы и отсутствия передач они также не получают много касаний / передач в нападении. Скажите Харрисону Барнсу, если он сделает еще несколько передач, когда кто-то закрывает его на дуге, он может завести еще несколько друзей (и получить еще несколько передач / открытых бросков в будущем).

Представительные игроки

Харрисон Барнс, Кайл Андерсон, Гэри Пэйтон II, Таддиус Янг, Табо Сефолоша, Микал Бриджес, Танасис Антетокунмпо, Кэм Реддиш

7. Большой прыжок

Сочетая роли традиционного центра и нападающего, этот игрок набирает очки, используя возможности пик-н-ролла и ловли-и-броска (в отличие от пост-апов или движений локтем). Используя свой рост, он очень помогает своей команде в защите, как в защите кольца, так и в борьбе с двумя точными ударами, и в боксе, чтобы получить защитные доски.

Однако вы не увидите, как он едет к корзине из-за периметра, и он не держит мяч долго, когда получает его. Хотя он участвует в защите, отбивая удары и собирая подборы, он не умеет хорошо бегать по площадке во время быстрых отрывов, и вряд ли он будет использовать пасы, чтобы отразить или украсть передачу. Я видел, как отдушины Кевина Лава проходят, они быстро ломаются за него ...

Представительные игроки

Эл Хорфорд, Брук Лопес, Кристапс Порзингис, Кевин Лав, Ламаркус Олдридж, Пол Миллсап, Дреймонд Грин, Маркифф Моррис, Марк Газоль

8. Дабл-дабл

Один из самых эффективных бомбардиров (с точки зрения сделанных бросков), это еще один пик-н-роллер, но вместо того, чтобы стрелять в прыгуна, этот игрок с большей вероятностью забьет от локтя или в краске. Хотя у этого игрока не так много приемов ISO, он зарабатывает большое количество касаний (он представляет собой угрозу нападения) по всей передовой зоне. Его эффективность, вероятно, зависит от множества данков, простоев и очистки пропущенных бросков (что помогает ему лидировать в дабл-дабле).

Как и другой специалист по перекату из пик-н-роллов, он вряд ли возьмет слишком много троек и не держит мяч очень долго, когда получает его. Интересно, что он мало двигается в нападении или защите, а также не двигается быстро с обоих концов, оставаясь в основном возле обода, если не установил ширму. Это не значит, что он не представляет угрозы для защиты, он просто, скорее всего, стоит рядом с корзиной на D. Не говори Джоэлу Эмбииду, что я сказал, что он мало двигается на D.

Представительные игроки

Яннис Антетокунмпо, Сион Уильямсон, Карл-Энтони Таунс, Энтони Дэвис, Джоэл Эмбиид, Никола Йокич, Серж Ибака, Хасан Уайтсайд

9. Художник.

Когда этот игрок устанавливает экраны, он имеет в виду дела. Его экраны фактически приводят к забитым голам с игры, хотя он сам является угрозой для нападения (только не за пределами экрана). Он набирает очки в раскраске, часто работая с локтя, и доминирует в атаке и на легких подборах. Вы также вряд ли получите от него легкие удары, поскольку он борется с двойками и хорошо защищает обод.

Однако, если вы заметите его за пределами дуги, не стоит ожидать, что он сделает или сделает много выстрелов. Он также не будет наезжать на вас и не будет стрелять J, когда поймает пас. Этот человек живет в краске (если только он не собирается ослеплять вас сплошным экраном). Они похожи на нападающих баскетболистов: если вы забиваете с одного из их экранов, вы должны им Rolex или что-нибудь приятное. В следующем году я лучше увижу, как Стивен Адамс сверкает новыми украшениями.

Представительные игроки

Руди Гоберт, Джарретт Аллен, Стивен Адамс, Ивица Зубак, ДеАндре Джордан, Джавэйл МакГи, Клинт Капела, Энес Кантер, Мейсон Пламли

10. Центр

Практически идентичная Painter, эта позиция отличается тем, что гораздо более вероятно, что вы запишете блок или выстрелите неоспоримыми двойками (также известный как данк). Этот проигрыватель также либо не устанавливает много экранов, либо, по крайней мере, при этом менее эффективен (помогает при низком экране). Эта позиция кажется мёртвой (никто не регистрировался как таковой в сезоне 2019–20), и игроки, которые ранее фигурировали, сегодня обычно классифицируются как Художники или Высокие прыгуны. Возможно, возрастающая важность установки заслонок в атакующих сетах привела к реклассификации? В любом случае, на данный момент эта позиция кажется спорной.

Представительные игроки

Нет в 2019–20 гг. В прошлом: Майкл Бисли, Ламаркус Олдридж, Бобан Марджонович, Зак Рэндольф, Андре Драммонд

Заключение

Использование стиля игры игрока для определения своей позиции вместо классических позиций открывает новую информацию, полезную как для команд, так и для болельщиков.

Благодаря вдвое большему количеству позиций для определения игроков команды могут проводить более детальный анализ составов. Дополнительные позиции упрощают разделение стиля игры, что упрощает оценку того, как разные позиции играют вместе, позволяя командам отвечать на такие вопросы, как «какие комбинации позиций более успешны, чем другие?» И «какие позиции больше всего способствуют успеху. команды?

Дополнительные позиции для «стиля игры» также позволяют настроить оборонительную стратегию. Таблицы ударов общедоступны (похожи на схему ударов в бейсболе), но с этими новыми позициями у нас теперь также есть информация о пасах, подборах, движении и т. Д. направление, которое предпочитает игрок при ведении мяча. Например, защитные стратегии теперь могут легко включать в себя дополнительные тенденции, такие как передача на драйве против броска, подбрасывание мяча вместо паса на дугу или размахивание мячом против оспариваемого удара. Хотя их, безусловно, можно разработать на индивидуальном уровне с помощью доступной статистики, запомнить тенденции позиции намного проще, чем всех возможных игроков, которых можно было бы охранять.

Наконец, уделяя больше внимания стилю игры, мы можем оценить, насколько игроки меняют свой стиль с течением времени. По-разному ли Кави играл со Шпорами против Клипперс? Изменился ли Кайри Ирвинг за время, проведенное в командах? Есть ли конвейер к статусу Triple-Double? Понимание того, как игрок может адаптироваться к новому составу / системе или продвигаться по карьерной лестнице, может иметь важное значение для определения того, стоит ли включить в состав потенциального свободного агента или драфта.

Следующие шаги

В будущем поищите посты, в которых я анализирую эти позиции по составам (какие комбинации добавляют наибольшую / наименьшую ценность?) И отвечу на вопрос, изменяются ли / как стили игроков со временем (можете ли вы дорасти до некоторых из этих позиций? ). А пока вы можете поиграть с выходными данными модели и использовать их для самостоятельного прогнозирования позиций игроков! Найдите соответствующие данные на моем GitHub здесь.