Один из этапов карьеры игрока MLB — зарплатный арбитраж. С 1970-х годов игроки со стажем работы от трех до шести лет могут присутствовать на арбитражных слушаниях против своей команды, если обе стороны не согласны на новый контракт. Хотя в целом это исключение, каждый год небольшое, но нетривиальное количество дел заканчивается слушанием. Там и игрок, и команда спорят о желаемой зарплате, заканчивая окончательным решением назначенной комиссии.

В последние годы игроки могли получить дополнительный год арбитража через статус Super Two, когда игроки имеют срок службы выше установленного порога, но все еще меньше трех лет. С другой стороны, команды могут контролировать, с кем они ведут переговоры, благодаря возможности не проводить тендеры для игроков, имеющих право на арбитраж. Игрок, не участвующий в тендере, становится свободным агентом до завершения шестилетнего контракта новичка и может подписывать контракты для игры в высшей или низшей лиге. Контракт с высшей лигой будет заключаться с гарантированной зарплатой, а с контрактом с низшей лигой будет выплачиваться минимальная зарплата за время, проведенное в высшей лиге.

Сбор данных, очистка, предварительная обработка

Чтобы попытаться предсказать годовой арбитраж заработной платы, я построил нейронную сеть с API Keras, которая возвращает годовую зарплату на основе факторов, связанных с игрой и карьерой. Собранные данные обучения и тестирования включают статистику арбитража, игрового процесса и карьеры для всех игроков, имеющих право на арбитраж, за период с 2011 по 2023 год. Описания всех переменных, используемых в обеих моделях, можно найти здесь.

Основные этапы процесса очистки данных были следующими:

Уборка

  • Изменена позиция многопозиционных игроков на основную позицию
  • Изменены имена, которые будут объединены с именами в формате Fangraphs.
  • Сокращено время обслуживания с формата «годы.дни» до года
  • Конвертированные иннинги (IP) с 0,1 до ⅓, с 2 до ⅔
  • Преобразование строк со знаками процента в числа с плавающей запятой

Объединение

  • Объединены арбитражная зарплата и статистика Fangraphs по именам и предыдущему сезону
  • Добавлена ​​зарплата за предыдущий год в качестве функции
  • Обработаны пропущенные значения путем поиска заработной платы. Остальные пропущенные значения были рассчитаны с учетом минимальной заработной платы в лиге для каждого сезона.
  • Создан тренировочный и тестовый наборы, разделенные по позициям игроков и питчеров.

Обучение: арбитраж 2011–2022 гг. и данные об эффективности

  • Размеры, положение игроков: 875x79
  • Размеры, кувшины: 1120x83

Тест: арбитраж и данные о производительности за 2023 год

  • Размеры, позиция игроков: 89x79
  • Размеры, кувшины: 140x83

Предварительной обработке способствовала визуализация распределения всех непрерывных переменных. Для этого я создал гистограммы для каждой переменной, чтобы увидеть, как каждая из них должна быть соответствующим образом масштабирована. Короче говоря, время обслуживания и позиция были закодированы горячим способом, все переменные Парето/ненормально распределенные были масштабированы MinMax, а остальные были нормализованы с помощью z-скоринга.

Построение модели

Сеть, которую я выбрал для построения, была проста по своей структуре: структура пирамиды с входным слоем, тремя скрытыми слоями по 100, 200 и 100 нейронов соответственно и одним выходным нейроном. Каждый скрытый слой использовал функцию активации ReLU и был регуляризован с 20% выпадением узлов. Учитывая небольшое количество обучающих выборок, обрезка или тонкая настройка не требовались.

Каждая модель обучалась со скоростью обучения 0,0005 в течение 300 эпох и оценивалась с помощью показателей Средняя абсолютная ошибка (MAE) и Средняя абсолютная ошибка в процентах (MAPE). В то время как среднеквадратичная ошибка (MSE) или среднеквадратичная ошибка (RMSE) являются стандартными для задач регрессии, я предпочел MAE и MAPE. Во-первых, поскольку немногие игроки будут получать гораздо большую заработную плату по сравнению с целым числом, MAE и MAPE должны быть лучшими измерениями точности модели с учетом выбросов. Кроме того, MAE является более легкой статистикой для интерпретации при оценке среднего отклонения прогнозируемой модели заработной платы от реальной заработной платы.

Результаты модели

Комбинация скорости обучения, эпох и скрытых слоев оказалась подходящей. После изучения кривых обучения обеих сетей выяснилось, что обе модели начали выходить на плато с точки зрения потерь без полного переобучения. Потери проверочного набора продолжали уменьшаться вместе с потерями тренировочного набора, и небольшие различия в потерях между ними сохранялись на протяжении всего обучения.

Чтобы понять важность функции, я нашел значения Шепли сети, назначенные каждой функции на основе ее относительного вклада в окончательные прогнозы модели. Двумя наиболее важными характеристиками для позиционных игроков и питчеров были предыдущая зарплата и наличие у игрока четырех или пяти лет службы. Среди других положительных особенностей были возраст, показатели игрового времени и конкретные статистические данные, измеряющие мастерство. Для позиционных игроков показатели дисциплины пластин, такие как Swing%, Contact% или BB%, возвращали более высокие значения, в то время как важные для питчеров показатели включали GB%, SwStr% и Hard%.

Обе модели были протестированы путем прогнозирования заработной платы для арбитражного класса 2023 года с округлением каждой модели до ближайшего числа, кратного 10 000, для ясности. Я также создал несколько диаграмм рассеяния реальных и прогнозируемых зарплат, сгруппировав каждую точку данных по должности или времени работы. В целом, большинство точек данных были сгруппированы в диапазоне от 1 до 6 миллионов долларов для истинной и прогнозируемой зарплаты, в то время как несколько игроков за пределами кластера имели четыре или пять лет службы. С точки зрения позиции, те же самые игроки были либо стартовыми питчерами, игроками первой базы, либо некоторыми аутфилдерами. С другой стороны, прогнозы для питчеров, игроков второй базы и кэтчеров, за немногими исключениями, попали в общий кластер точек данных.

Судя по предсказаниям обеих моделей, конкретные игроки составляют самую большую разницу между реальной и прогнозируемой зарплатой. К ним относятся либо игроки старшего возраста, либо подмастерья, такие как питающий Хорхе Алкала (28, 3 года), Хосе Кастильо (27, 3 года) и резервный ловец Том Мерфи (32, 5 лет), все из которых прогнозировали зарплату выше, чем реальная зарплата. . Кроме того, игрокам в первый или второй арбитражный год, которые хорошо играли на протяжении своей короткой карьеры, прогнозируют более низкие зарплаты, в том числе ловцу Уиллу Смиту (28, 3 года) и игроку с первой базы Владимиру Герреро-младшему (24, 3 года). В этих случаях возраст играет в пользу прогнозов для более старших игроков, в то время как меньшее количество лет службы приводит к заниженным прогнозам для таких игроков, как Смит и Герреро-младший.

Наконец, обе модели показывают Шохея Охтани как исключение, предполагая, что его зарплата превышает 10 миллионов долларов, несмотря на зарплату в 30 миллионов долларов. Это имеет смысл, поскольку Отани — двусторонний игрок, поэтому обе модели не знают половины его входных данных. Однако даже если суммировать индивидуальные прогнозы, разница между реальной и прогнозируемой зарплатой все равно превысит 6 миллионов долларов.

Ограничения, заключение

В целом, прогнозирование зарплат арбитражников MLB достижимо для многих игроков. Однако ограничения становятся очевидными при прогнозировании конкретных игроков на основе результатов только за один год. Из этого упражнения можно сделать вывод, что арбитраж лучше подходит для методов, основанных на временных рядах. Если это так, каждый игрок в каждый год арбитража будет иметь все предыдущие зарплаты и предыдущую статистику производительности в качестве входных данных. В настоящее время каждая точка данных включает зарплату и статистику за предыдущий год, но не имеет доступа к данным за предыдущий год. Следовательно, ни одна из моделей не знает о траектории карьеры игрока, которая ведет к целевой зарплате. Устранение этого может исправить некоторые недостатки в прогнозировании, описанные выше, но необходимы изменения как во входных данных, так и в выборе модели.

Кроме того, для понимания арбитража как процесса необходимо больше данных более высокого качества. Однако в настоящее время негде найти арбитражные данные за 2010 год и ранее. Необходимо больше времени тратить на поиск способов агрегирования прошлых арбитражных данных, при этом идеальным продуктом являются данные обо всех участниках, имеющих право на арбитраж, за каждый год с момента создания арбитража.

Дополнительную информацию о полном коде, данных и визуализациях можно найти в моем репозитории Github.