Я проснулся холодным январским утром в Чикаго и услышал захватывающие новости о том, что «Уайт Сокс» недавно подписала нового игрока, Лиама Хендрикса. Для многообещающей команды добавление Матча звезд, чтобы закрепить свою позицию в КПЗ, было захватывающей перспективой и признаком того, что команда инвестировала в совершение соревновательного скачка в 2021 году. Большую часть моего опыта наблюдения за игрой Хендрикса я получил всего несколько месяцев назад, когда он Окленд А победил Уайт Сокс в первом раунде плей-офф. Он был поистине доминирующей силой, так как в коротком сериале он был ближе, и я слышал, как его имя упоминалось в течение последних двух лет, поэтому я предположил, что он был в этой роли какое-то время.

Когда я открыл его страницу Справочник по бейсболу, я был удивлен, узнав, что он не только был ближе всего два года, но и был тем же стартовым питчером ниже среднего, который играл за Minnesota Twins почти десять лет. тому назад! Я знал, что этот переход от стартера к более близкому не был чем-то неслыханным, но я был ошеломлен резким контрастом его успеха в начале его карьеры и позже. Меня поразили два связанных вопроса. Во-первых, используя статистику на этой странице, могу ли я предсказать, насколько хорошо он выступит за Уайт Сокс в наступающем сезоне? И, во-вторых, есть ли способ предсказать сейвы для близких в целом, даже для питчеров, чья карьера меняет траекторию так же сильно, как и Хендрикса?

Есть ли способ предсказать сейвы для близких в целом, даже для питчеров, карьера которых меняет траекторию так же сильно, как и Хендрикс?

Сбор данных

Я решил придерживаться веб-сайта, который я и многие другие фанаты посещали в качестве первой остановки для сбора статистики, Baseball-Reference. Я был особенно заинтересован в получении информации о кувшинах, которые оказываются в более близкой роли. Для ясности, более близким является питчер, которого команды используют в поздней игре в ситуациях с высоким кредитным плечом, чтобы помочь закрыть игру . Если они попадают в такую ​​ситуацию, удерживают лидерство и их команда выигрывает, им засчитывается сейв . У Baseball-Reference есть хорошая страница с десятью лучшими питчерами по сейвам за каждый год, начиная с 1871 года, поэтому я использовал это, чтобы решить, каких питчеров я бы поместил в набор данных. Я использовал BeautifulSoup, чтобы собрать статистику карьеры с разбивкой по сезонам для каждого питчера, который попал в первую десятку за сезон с 1990 года по настоящее время. Ограничение в 1990 году удерживает нас в современной эпохе использования КПЗ, поскольку способ развертывания разгрузочных устройств начал кардинально меняться в середине-конце 1970-х годов.

Очистка и технические данные

Как только я скопировал HTML-код в Jupyter Notebook, я проанализировал его и загрузил во фрейм данных Pandas. Моей целью были сохранения в следующем году, поэтому мне пришлось немного обработать данные временных рядов, сдвинув строки, чтобы обеспечить сохранение в следующем сезоне. Например, к данным питчера за 2015 год будет добавлена ​​запись для сохранений за 2016 год. Таким образом, я мог бы использовать данные в 2015 году с контролируемой целью обучения, проверки и тестирования. Я сделал то же самое, оглядываясь назад, чтобы увидеть, может ли статистика по послужным спискам повлиять на будущую производительность. Таким образом, статистика за 2015 год также включает категории для сохранений за 2014 год, сумму за предыдущие два года и текущую сумму за три года.

Это решение также означало, что нужно было удалить несколько наблюдений из набора обучающих данных. У питчеров на последнем году карьеры не было никаких серьезных прогнозов. После того, как счет их последнего сезона был использован для целей предыдущего года, их последний сезон был удален. Точно так же сезон 2020 года был аномальным из-за COVID-19, поэтому он не мог служить истинной целью на сезоны 2019 года, поэтому они были отложены на будущее.

Помимо статистики сохранений, было доступно большое количество других статистических данных, которые можно было использовать в качестве потенциальных функций в модели. К ним относятся, но не ограничиваются: сыгранные игры, попадания, пробежки, зачеркивание, ERA, возможности сохранения, удержания, возраст и более сложные показатели, такие как WHIP, FIP, ERA +, SO / BB и S0 / 9.

MVP и базовый уровень

Чтобы понять, как можно начать прогнозировать сохранение, я начал с простой регрессионной модели как минимально жизнеспособного продукта. Первоначальная модель представляла собой простую линейную регрессию, в которой прошлогодние сохранения были единственной функцией, позволяющей предсказать наступающий сезон. Эта модель смогла объяснить только около 30% изменчивости сбережений на следующий год. Это означало, что общий годовой сэйв мог отчасти объяснить, насколько хорошо питчер может выступить в следующем сезоне, но он также не мог учесть большую часть вариабельности сэйвов. В среднем, предсказания этой модели имели среднюю абсолютную ошибку около 14 сохранений.

На рисунке выше точные прогнозы отмечены пунктирной линией, а точки, расположенные дальше от линии, представляют собой завышенные или заниженные прогнозы. Эта модель имеет нижнюю границу, которая дает минимальное значение, которое она может спрогнозировать, что является хорошим примером того, как эта модель не может уловить некоторую вариативность сохранений.

Я взял эту модель за основу. Будущие модели, которые могут учитывать большую вариативность, будут успешной. Можно ли точно предсказать сейвы? Какая статистика может объяснить эту способность, если таковая имеется?

Улучшенные модели

В рамках этого проекта я хотел придерживаться линейной регрессии, чтобы удовлетворить требованиям задания на Интенсивный учебный курс Metis Data Science Intensive Bootcamp. Было несколько направлений улучшения новой модели. Наибольшая возможность возникнет из того, что уже обсуждалось, добавив больше функций. Проанализировав парные графики, чтобы избежать коллинеарности между функциями, используя знания предметной области, чтобы подтвердить, могут ли эти функции быть связаны, и учитывая тепловую карту коэффициентов корреляции функций с целевой переменной, я создал новую модель, используя оставшиеся функции.

Эта обновленная регрессионная модель была затем обучена и прошла пятикратную перекрестную проверку, в результате которой процент вариативности, которую можно объяснить целевыми сохранениями, увеличился до 35% в среднем. Более того, произошло снижение средней средней ошибки прогнозов, упав примерно до 10 сохранений на прогноз.

В том же визуальном стиле, что и раньше, новая модель создает прогнозы, которые немного больше соответствуют фактическим значениям, поскольку точки перемещаются ближе к пунктирной линии истинных прогнозов. Более того, минимальное значение выходов больше не происходит, что помогает модели учитывать дополнительную изменчивость в будущих сохранениях.

Точная настройка

Последняя попытка улучшений была предпринята путем рассмотрения взаимодействия функций и определения того, какие функции вносят наибольший вклад в итоговую модель. В обоих случаях я полагался на использование перекрестно проверенных моделей LASSO для наказания больших коэффициентов и помощи в выборе функций. Я создал все члены взаимодействия второй степени и прогнал их через модель LASSO, но потом у меня не было ненулевых коэффициентов, поэтому я не сохранил эти члены взаимодействия в своей модели. Тем не менее, я обнаружил пару особенностей из моей собственной разработки, которые добавляли ценность, в ошибках за появление (бреши, удары по подаче и дикие подачи, суммированные и разделенные по появлениям), и с игроками, с которыми сталкиваются за игру.

Используя эту модель LASSO с выбранными функциями, окончательная модель была пригодна для прогнозов. Тестируя его на множестве тестовых данных, был получен окончательный график фактических сохранений против прогнозов.

Хотя этот график действительно выглядит довольно похожим на прогнозы предыдущей регрессионной модели, эта последняя модель на тестовых данных смогла объяснить около 41% изменчивости целевых сохранений и имела среднюю ошибку около 10 сохранений на прогноз.

Источники ошибок

Несмотря на то, что в этом процессе улучшилась способность модели объяснять вариативность сохранений, я не считаю, что какой-либо из них является полностью заслуживающим доверия методом прогнозирования сохранений. Было несколько игроков с большим количеством ошибок, и их рассмотрение помогает понять, почему модели не справляются.

Есть несколько моментов, которые важны для таких игроков, как Джон Смолц и Дуэйн Уорд. Смольц, как и Хендрикс, видел карьерную траекторию. Тем не менее, он не переходил от стартера к помощнику к ближе, а сразу перескакивал от стартера к ближе. У таких питчеров, как Смольц, не было промежуточных сезонов, которые могли бы предсказать их успех в сейвах, и эта модель не может уловить этот прыжок. С другой стороны, Дуэйн Уорд был невероятно успешным, но получил травму и больше никогда не играл. После последнего успешного сезона эта модель ожидала большего успеха, но не смогла объяснить его падение. Обратная сторона высокой волатильности доводчиков наблюдается у многих питчеров, которые, по прогнозам, заработают сейвы, но в конечном итоге заработают буквально ноль.

Выводы

Несмотря на эти источники ошибок, модель действительно способна учесть некоторую изменчивость будущих сохранений, а не просто использование прошлогодних сохранений. Чтобы лучше понять, какие функции вносят наибольший вклад, давайте рассмотрим коэффициенты функций из модели LASSO. Поскольку их статистика стандартизирована для регуляризации, эти значения предназначены для интерпретации ценности и не представляют ценности связанных функций.

На мой взгляд, особенности, которые вносят наибольший вклад, делятся на две категории: возможности и доминирование. Возможности сводятся к сочетанию удачи, управленческого выбора, производительности и других факторов, но здесь отражаются в статистике, такой как количество завершенных игр, удержания (еще одна возможность с высоким кредитным плечом, но не для завершения игр), сохранения, возможности сохранения и игры. . Доминирование - это категория, которая говорит о том, насколько питчер контролирует игру, а не полагается на свою защиту, чтобы поддержать его. Это видно в статистике, такой как FIP (метрика, описывающая успех питчера независимо от полевых игроков), зачистки на ходьбу и сочетание допуска меньшего количества попаданий и согласия с увеличением количества ходов.

На мой взгляд, особенности, которые вносят наибольший вклад, делятся на две категории: возможности и доминирование.

Дальнейшая работа

Я бы направил дальнейшие усилия на раскрытие дополнительной информации об этих двух категориях, которые больше всего повлияли на окончательную модель. В частности, я бы обратился к дополнительным расширенным параметрам, чтобы лучше определить доминирующего питчера на основе скорости, скорости вращения, процента ударов и промахов, а также другой новой школьной статистики. Я бы также подумал, что привлечение большего количества статистических данных, связанных с командой, таких как поведение менеджеров и показатели баланса команды между наступательными и оборонительными ожиданиями, которые могут определять близость игр и, следовательно, количество возможностей для сохранения. В общем, очевидно, что сейвы очень нестабильны и их сложно спроектировать, поэтому полагаясь на эти косвенные значения, мы можем лучше понять потенциальный успех в будущем, исключая травмы.

Для развлечения: прогнозирование 2020 года

В качестве заключительного вывода, вот что окончательная модель предсказывала на 2020 год на основе 2019 года, а затем сократилась до 60 игровых сезонов.

Слева кувшины отсортированы по фактическим сохранениям за 2020 год, а правая сторона отсортирована по сохраненным проектам в модели. В целом, модель неплохо справляется с прогнозированием сохранений, если только в случае серьезной неудачи. Тем не менее, эти большие ошибки, по-видимому, обычно попадают в упомянутые ранее категории смены ролей / команды и травм. Без точных данных о 162 играх 2020 года или прогноза на два года позже данных 2019 года не существует набора данных, который кажется подходящим для прогнозирования 2021 года, но я с нетерпением жду использования данных 2021 года, чтобы увидеть, что я могу ожидать от 2022 года!

Для получения более подробной информации, кода, подключения и другой информации посетите мой репозиторий Github, веб-сайт или LinkedIn.