Пи-рейтинги были впервые описаны в этой статье для создания информативных ковариат для предсказания футбольных матчей. В этой статье я покажу, как рассчитать эти рейтинги и оценить их прогностическую силу для матчей в высших европейских лигах.

Пи-рейтинги основаны на более простых рейтинговых системах, таких как ELO, тремя различными способами. Во-первых, они вводят отдельные рейтинги для домашних и выездных игр. Они обновляются в соответствии с определенным правилом, и скорость, с которой они обновляются, зависит от второго нового добавления, двух скоростей обучения.

Когда команда А играет дома с командой Б, мы используем домашний рейтинг команды А и гостевой рейтинг команды Б. Затем рейтинги используются для оценки того, сколько голов команды забьют дома или на выезде среднему сопернику. Берем эту оценку и получаем расхождение между ней и наблюдаемой разницей мячей. Затем эта ошибка используется для обновления соответствующих рейтингов домашней и гостевой команд.

Преимущества такого подхода заключаются в следующем:

  1. Рейтинги не растут бесконечно, они более стабильны, чем рейтинги Эло.
  2. Существует различие между результативностью дома и на выезде, поэтому учитывается преимущество дома, в отличие от рейтингов ELO. Также бывает так, что выездные выступления команд влияют на их домашний рейтинг.
  3. Учитывается маржа победы, и за более высокую разницу мячей уменьшаются награды.
  4. Команда может проиграть и все же улучшить свой рейтинг, если она превзошла ожидания.

Эти преимущества, особенно пункты 2 и 4, делают pi-рейтинг более реалистичной системой командного рейтинга по сравнению с системой ELO.

В этом коде, аналогично реализации ELO, я использую словарь, инициализированный всеми значениями командного рейтинга, установленными на ноль. По мере продвижения по фрейму данных мы вставляем текущую ожидаемую разницу голов и разницу оценок pi перед обновлением и повторным сохранением оценок.

После того, как мы подсчитали наши рейтинги, мы можем изучить их дальше. Мы собираемся сравнить эти рейтинги с системой рейтингов Эло, которую мы обсуждали в предыдущей статье.

Тепловая карта корреляции показывает, что ожидаемая разница голов и разница в рейтинге пи могут служить надежными предикторами для бинарной цели «home_win».

Эти две диаграммы представляют визуальное сравнение, отображающее эволюцию рейтингов Эло и Пи. Понятно, что рейтинги «пи» гораздо менее изменчивы и, хотя существует очень сильная корреляция между рейтингами «пи» дома и на выезде, они различны и рисуют более тонкую картину способностей команд.

В предоставленном фрагменте кода мы оцениваем прогностическую эффективность наших недавно введенных рейтингов и сравниваем их как с нашими рейтингами Эло, так и с прогнозами букмекеров.

Набор данных разделен на обучающий и тестовый наборы. В частности, мы используем весь сезон 2022/2023 в качестве нашего тестового набора, а все предыдущие сезоны используем для тренировок. Дополнительно выполняем масштабирование для нормализации. При объединении всех функций мы используем регрессию Лассо для устранения мультиколлинеарности, присутствующей в наших данных. Наш results_df выглядит так:

Интеграция всех функций дает более высокую точность, чем у букмекеров, демонстрируя многообещающие результаты. Однако наиболее важные показатели, а именно потеря оценки Бриера и ROC AUC, не демонстрируют сопоставимого улучшения. По обеим этим метрикам прогнозы букмекеров значительно превосходят нашу модель, что указывает на их большую близость к правильным меткам.

Для меня было неожиданностью то, что ожидаемая разница мячей, полученная при расчете рейтинга пи, оказывается наиболее эффективным предиктором. Возможно, использование рейтингов и умной математики для получения точных оценок разницы мячей — это реальный путь к модели, которая сможет превзойти букмекеров! Наконец, вот диаграмма, иллюстрирующая эффективность каждой функции в течение футбольного сезона:

Это все, что у меня есть для этой статьи, не стесняйтесь использовать любой код выше. В следующей статье я покажу вам, как реализовать описанную здесь систему оценок.