Команда Baseball Data Machine Learning сосредоточена на использовании данных, чтобы рассказать историю бейсбола и помочь болельщикам и клубам бейсбола. Наша команда постоянно учится у более широких сообществ, занимающихся наукой о данных, машинным обучением и саберметрикой, и будет делиться собственным опытом в этом блоге.

Команда Baseball Data Machine Learning разрабатывает модели, которые открывают ценную информацию для любителей бейсбола на всех платформах. Одной из таких моделей является ожидаемое среднее значение удара (xBA), которое указывает на качество контакта нападающего, а не зависит от зависящих от удачи результатов, которые определяют среднее значение удара (BA) и могут колебаться в небольших выборках. В 2018 году мы представили версию k-ближайших соседей модели ожидаемое среднее значение (xBA), которая основывалась на скорости выхода и угле запуска. Мы будем называть это нашей базовой моделью k-NN. Конечно, игроки могут контролировать и другие аспекты летучей мыши, чтобы повысить вероятность попадания, помимо скорости выхода и угла запуска.

Как продемонстрировали аналитики, игроки, у которых xBA хуже, как правило, медленнее отбивают мяч, как Альберт Пухольс и Йондер Алонсо, тогда как игроки, которые превзошли свои xBA, как правило, более быстрые игроки, такие как Ди Гордон и Сезар Эрнандес. В 2018 году у Ди Гордона был xBA 0,249, а фактический средний результат 0,268. У Альберта Пужоля, с другой стороны, был xBA 0,280 и фактический средний результат 0,245. В 2018 году у Сесара Эрнандеса был xBA 0,231 и фактический средний результат 0,253. Вон тот Алонсо имел xBA 0,265 при фактическом среднем показателе 0,250. Это привело нас к исследованию включения в модель скорости спринта.

Прежде чем мы реализуем модель, включающую скорость спринта, нам нужно определить, где скорость может помочь отбивающим улучшить свои результаты. Скорость спринта не поможет мячу упасть для удара в дальней части поля, поэтому мы сосредоточились на слабых и топовых мячах с 2015 по 2018 год, где мы обнаружили сильную связь между средней скоростью удара и скоростью спринта.

Для этого используются шары, ударяемые о землю, и слабо ударяемые шары с малыми скоростями выхода. Есть несколько простых всплывающих окон внутри поля, включенных в слабо отбитые мячи, поэтому мы ограничили угол запуска 60 градусами. Мы также хотим игнорировать комбинации скорость/угол, которые приводят к тому, что мячи могут приземлиться в короткой дальней части поля. Для этого мы использовали калькулятор расстояния Алана Натана, чтобы оценить ожидаемое расстояние для всех комбинаций скорости и угла, а затем ограничили максимальное ожидаемое расстояние до 120 футов.

Далее мы оцениваем различные методологии моделирования. Для начала мы оцениваем производительность k-ближайших соседей (k-NN), просто добавляя скорость спринта к нашей базовой модели в качестве третьей переменной. Мы также пытаемся подогнать одну модель с масштабированными скоростью, углом и выходной скоростью (используя минимально-максимальную нормализацию) и одну без масштабирования переменных. Поскольку k-NN использует евклидово расстояние, алгоритм чувствителен к масштабу переменных.

После подгонки моделей с использованием поиска по сетке и перекрестной проверки для оптимизации числа ближайших соседей мы можем оценить эффективность прогнозирования данных в выборке и вне выборки. В первой таблице оцениваются две модели k-NN по сравнению с базовой моделью для отбитых мячей. Чтобы оценить производительность, мы рассчитываем точность оценки модели xBA с фактическим результатом как внутри выборки (текущий год), так и вне выборки (следующий год).

Как мы видим, обе модели k-NN представляют собой скромные улучшения прогнозирования как внутри выборки, так и вне выборки.

После добавления в модель еще одного измерения навыков игрока нам нужно убедиться, что эти изменения дают интуитивно понятные и интерпретируемые результаты, а не просто повышают производительность.

Группируя средний результат по скорости спринта, мы видим, что модель масштабированных переменных более точно аппроксимирует влияние скорости спринта на вероятность попадания в наземный мяч.

Затем мы хотели бы убедиться, что выходные данные модели интуитивно понятны, и, к сожалению, именно здесь модель k-NN скорости спринта борется.

Хорошим примером является сингл Trea Turner infield от 31.07.2018.

xBA для скорости выхода 90 миль в час, угла запуска мяча -17 градусов для бегуна со скоростью 30 футов в секунду (fps), такого как Тернер, оценивается в 0,590 с использованием масштабированной модели k-NN; однако xBA для той же комбинации угла запуска и скорости выхода для бегуна со скоростью 27 кадров в секунду составляет 0,980. Нет веской причины, по которой более медленный игрок может иметь больше шансов на попадание, чем более быстрый игрок. Вполне вероятно, что новая модель k-NN подгоняется под шум. Хотя есть шаги, которые мы можем предпринять, чтобы уменьшить переоснащение, мы хотели бы ограничить влияние скорости монотонным увеличением.

Чтобы наложить некоторые ограничения, мы провели оценку с использованием обобщенной аддитивной модели (GAM). GAM позволяют нам фиксировать нелинейные закономерности в нашем наборе данных без использования полиномов или бинирования, и мы можем контролировать параметр сглаживания, чтобы избежать переобучения. В нашем случае это позволяет нам зафиксировать взаимосвязь скорости спринта, а также учесть нелинейную зависимость угла и скорости на выходе.

Чтобы обучить нашу модель, мы использовали пакет pyGAM, и мы подгоняем, используя линейный член скорости спринта и член тензорного произведения для скорости выхода и угла запуска.

Глядя на результаты, мы видим, что, хотя модель GAM не улучшается на уровне отбитого мяча, мы видим улучшение надежности и прогнозирования, когда оцениваем производительность модели на уровне игрока.

Используя взвешенные корреляции Пирсона для среднего показателя результативности игрока за сезон по результатам наземного мяча, мы можем определить, насколько хорошо каждая модель отражает способности игрока. Для этого мы будем использовать аналогичную структуру, которую Джонатан Джадж изложил в Baseball Prospectus, проверив описательные, достоверные и прогностические корреляции. Чтобы измерить описательную корреляцию, мы сравниваем xBA того же года со средним показателем того же года. Чтобы измерить надежность, мы сравниваем xBA того же года с xBA следующего года. Чтобы измерить прогностическую корреляцию, мы сравниваем xBA того же года и среднее значение следующего года. Мы ограничили анализ отбитыми мячами с максимальным ожидаемым расстоянием в 120 футов.

Ниже мы видим, что линейное ограничение GAM повышает годовую надежность среднего показателя отбивания наземных мячей.

В то время как повышение надежности велико, мы хотели бы интерпретируемую модель, не жертвуя точностью на уровне отбитого мяча.

Для этого мы можем использовать логистическую GAM, используя линейный термин для скорости спринта игрока и сплайновый термин на выходе модели скорости и угла k-NN.

Глядя на результаты, мы видим, что нам удалось улучшить описательную и прогностическую силу на уровне отбитого мяча, сохранив при этом аналогичную прогностическую корреляцию.

С помощью k-NN с линейной поправкой мы можем взглянуть на обновленные значения xBA для Альберта Пухолса, Ди Гордона, Йондера Алонсо и Сесара Эрнандеса. В модели с увеличенной скоростью у Pujols (-0,015) и Алонсо (-0,013) xBA снижены, а у Ди Гордона (0,026) и Сезара Эрнандеса (0,021) xBA повышены.

Мы видим аналогичные результаты, когда оцениваем версию модели wOBA. Модель с увеличенной скоростью хорошо работает как на уровне отбитого мяча, так и на уровне игрока.

Вы можете увидеть полную разбивку изменений уровней игроков в 2018 году здесь.

Для более подробного ознакомления с сильными сторонами и ограничениями xwOBA, пожалуйста, прочитайте Введение в ожидаемое средневзвешенное значение на базе.