Как работает подсчет очков в «Троне» (часть 1)

В этом посте в блоге, состоящем из трех частей, подробно рассказывается, как работает система подсчета очков на платформе Throne. Если вы ищете единую формулу, вам следует перейти к нижней части статьи. Объяснение TLDR заключается в том, что ваши прогнозы оцениваются на основе вашей относительной потери в журнале с общественностью. Остальная часть этой статьи посвящена теории и мотивации этого метода подсчета очков.

Стейкинг Kelly и рост банкролла

В Throne пользователи соревнуются не только друг с другом, но и с общественностью. Общедоступные вероятности поступают из ряда источников, и игроки оцениваются относительно этого эталона. Если пользователи на платформе коллективно работают плохо, то они коллективно оцениваются плохо. Мы все в этом вместе!

Мотивация для подсчета очков Throne исходит из гипотетической проблемы со ставками. Мы рассмотрим математическую основу этой проблемы в оставшейся части статьи. Не стесняйтесь пропустить это, если вы сразу после заключения — это не обязательно знать, чтобы соревноваться на платформе!

Предположим, что каждый игрок хочет превзойти публику. Мы рассматриваем гипотетические чистые шансы b = 1/q -1, где q — общедоступная вероятность исходао. Чистые шансы показывают, какой выигрыш мы получим сверх единичной ставки, если исход события будет успешным ( o = 1).

У игрока на Троне есть собственная вероятность p, которую он сравнивает с чистыми шансами b. Какую часть богатства они должны поставить?

Один из способов осмысления этой проблемы исходит из теории информации. Предположим, что каждый игрок хочет максимизировать гипотетический рост банкролла и начинает с единицы банкролла. Они могут решить инвестировать часть x этого банкролла в гипотетическую ставку. Их целевая функция может быть записана в виде:

Чтобы найти оптимальную долю для ставки, мы находим максимум этой функции, взяв производные и переставив в виде x*:

Это критерий Келли, хорошо известная формула, о которой даже написана популярная научная книга, и оптимальная формула для максимизации ожидаемого роста банкролла. Одним из ограничений этой формулы является то, что вероятности предполагаются известными, что занижает риск. Но это хорошая отправная точка для размышлений о поведении игроков.

Стейкинг по Келли и логарифмический проигрыш

Предположим, что игрок соревнуется с публикой в гипотетической игре и использует ставку Келли. Когда их стратегия обеспечит положительный ожидаемый рост банкролла? И как мы можем оценить их работу?

Предположим, что боги спорта знают истинные вероятности p. У игрока есть вероятности p^, и он делает ставки против общедоступных вероятностей q, используя ставку Келли. Чтобы рассчитать ожидаемое богатство игрока, мы можем подставить критерий Келли в уравнение ожидаемого богатства, чтобы получить следующее:

Где p2 = 1 - p1. Это расхождение KL и показатель того, насколько публичные вероятности отличаются от вероятностей игроков. Мы можем выразить это расхождение как относительную энтропию между двумя перекрестными энтропиями членами H:

Игрок увеличит свой банкролл в ожидании, если:

Другими словами, если приведенный выше термин отрицательный, то банкролл игрока будет увеличиваться в ожидании. Интуиция подсказывает, что иметь вероятности ближе к истине — это хорошо. Мы оцениваем вероятности через дивергенцию KL.

Реальный мир: относительная потеря журнала

Конечно, мы не знаем истинных вероятностей и не знаем, кто такие боги спорта! Поэтому вместо этого мы аппроксимируем вероятности, используя исторические данные результатов. Это дает следующее уравнение, основанное на логарифмических потерях:

Здесь x обозначает исход исторического события k -, который может быть равен 1 или 0.

Относительная потеря журнала — это основной показатель, используемый для оценки прогнозов в Throne. У него есть некоторые приятные свойства, такие как соблюдение принципа правдоподобия — оценка пользователя зависит только от того, что на самом деле произошло.

Если у вас меньшие потери журнала, чем у общедоступных, считается, что вы имеете преимущество. Наличие преимущества означает, что вы можете ожидать положительного гипотетического роста банкролла. На платформе это приводит к ожидаемому росту вашего балла Throne.

Заключение

На этом первая часть этого блога заканчивается. Пользователи Throne оцениваются на основе относительных потерь в журнале, которые выводятся из теории информации и свойств ставок Келли. В следующем сообщении блога мы увидим последний шаг использования относительной потери журнала для расчета оценки Throne.

В сторону

Если вам понравился этот пост или вы хотите получить дополнительные материалы для чтения, то я настоятельно рекомендую книгу Дэвида Маккея Теория информации, логические выводы и алгоритмы обучения, которая представляет собой отличное введение в теорию информации и ее связь с машинным обучением и Байесовский вывод.

Росс

Как работает подсчет очков в «Троне» (часть 1)

Вопросы по теме