Вступление

В этой статье я объясню принципиальный подход к оценке ожидаемой производительности модели в онлайн-тесте AB с использованием только автономных данных. Это очень полезно, чтобы помочь решить, какой набор улучшений модели должен быть приоритетным для проверки с помощью онлайн-теста AB.

Весь код для воспроизведения рисунков в этой статье можно найти здесь.

Мотивация

Представьте, что вы работаете на сайте электронной коммерции и получили задание создать алгоритм, который будет рекомендовать виджеты сайта пользователям на их домашней странице. Бизнес-цель рекомендаций - увеличить доход сайта. Как бы вы занялись разработкой такого алгоритма?

Традиционный способ построения рекомендательной системы будет включать оценку модели с использованием некоторых показателей информационного поиска, таких как точность @ k, отзыв @ k и NDCG @ k. Это называется автономной оценкой. Затем модели, получившие высокие баллы по этим показателям, переходят на следующий этап, который представляет собой онлайн-тест AB, где модели будут оцениваться по фактической бизнес-цели, например. увеличить доход, увеличить время просмотра и т. д.

Недостатком такого подхода является то, что нет причин ожидать, что какая-либо из автономных метрик будет хорошо коррелировать с бизнес-метрикой. Следовательно, вполне возможно, что модель, получившая хорошие оценки на этапе автономной оценки, будет плохо работать на этапе онлайн-тестирования AB.

Разве мы не можем пропустить этап автономной оценки и сразу перейти к этапу онлайн-тестирования AB? Это нецелесообразно по следующим причинам:

  1. Есть риск, что действительно плохая модель заставит пользователей массово покинуть сайт.
  2. Интеграция модели в производственную среду - это трудоемкий процесс, поэтому мы должны сохранять ее только для потенциальных моделей, у которых есть хорошие шансы на достижение данной бизнес-цели.

В идеале нам нужна надежная оценка ожидаемой производительности модели на реальных данных без необходимости развертывания модели в производственной среде. Под надежностью мы подразумеваем, что оценка является хорошим приближением к истинным характеристикам модели.

Такой оценщик существует?

Постановка задачи

Для простоты предположим, что нам нужно порекомендовать пользователю одно из семи товарных объявлений. Каждое объявление, если пользователь нажмете на него, принесет разный доход.

Поскольку мы работаем с синтетическими данными, мы знаем, что истинная производительность текущего алгоритма дает средний доход 63,30. Назовем текущий алгоритм политикой регистрации.

Теперь мы разработали новый алгоритм. Назовем это целевой политикой. Мы хотим знать, лучше ли целевая политика, чем политика ведения журнала.

Если целевая политика была развернута в производственной среде, ее средний доход составит 100,99, поэтому целевая политика действительно превосходит политику ведения журнала. Ключевой вопрос: есть ли способ прийти к такому же выводу без развертывания в производственной среде?

Оценщик оценки обратной склонности (IPS)

Определение

Предположим, мы настроили политику ведения журнала так, чтобы она записывала следующее для каждого рекомендуемого объявления:

На рисунке 1 показано, что политика ведения журнала регистрирует функции, которые использовались для создания рекомендации (user_features), объявление, которое фактически было рекомендовано пользователю (ad_placed), вероятность того, что объявление будет рекомендовано пользователю (ad_prob), и результат этой конкретной рекомендации (ad_revenue). Предположим, у нас есть 1000 записей таких журналов.

По замыслу, мы можем запросить нашу целевую политику, чтобы определить вероятность рекомендации объявления Y с учетом пользовательской функции X. Назовем эту вероятность model_prob и вычислим ее для каждой записи в нашем журнале.

Затем мы можем определить следующую оценку:

На рисунке 2 показана оценка IPS для оценки ожидаемой эффективности целевой политики, то есть среднего дохода. Обратите внимание, что все значения, необходимые для его вычисления, можно получить без развертывания целевой политики в производственной среде:

  • Значения для ad_prob и ad_revenue взяты из журналов, которые ведутся политикой ведения журналов.
  • Значения model_prob являются результатом прогнозов целевой политики после ее обучения в автономном режиме.

В следующем разделе будет показано, что оценка IPS, вычисленная на основе журналов, позволит нам сделать вывод, что целевая политика лучше, чем политика журналирования.

Полученные результаты

Вычисление оценщика IPS, как показано на рисунке 2 в нашем журнале из 1000 записей, дает средний доход 103,46 (что очень близко к истинной производительности 100,99) по сравнению со средним доходом от политики ведения журнала, равным 63,43. Следовательно, мы должны быть уверены, что развернем нашу целевую политику в производственной среде и проведем AB-тест, сравнив его с политикой ведения журнала в качестве окончательной проверки.

В этом примере предполагается, что у нас есть журнал с 1000 записями для вычисления оценки IPS ожидаемого вознаграждения целевой политики. Как бы изменился наш вывод, если бы у нас было больше или меньше записей в журнале, и как это соотносится с фактическим проведением онлайн-теста AB?

На рисунке 3 показано, что оценщик IPS очень хорошо отслеживает результаты теста AB. Размер выборки относится к количеству записей, которые мы имеем, фиксируя эффективность целевой политики в производственной среде (AB Test) или политики ведения журнала (IPS). Оба метода очень быстро подходят к среднему доходу истинной целевой политики, так как ожидаемое вознаграждение остается довольно стабильным после размера выборки примерно в 4000.

Вывод заключается в том, что чем больше у нас будет журналов с записью рекомендаций политики ведения журналов, тем больше у нас будет уверенности в том, что ожидаемое вознаграждение любой целевой политики, вычисленное с помощью оценщика IPS, будет соответствовать результатам онлайн-теста AB.

Почему это работает

Этот метод работает, потому что оценщик IPS является объективной оценкой среднего дохода целевой политики. Доказательство этого довольно простое, и заинтересованный читатель может обратиться к разделу Приложения за подробностями.

Другие оценщики

Помимо оценки IPS, существует множество оценок, которые были предложены в качестве оценки ожидаемого вознаграждения целевой политики. Эти оценщики отличаются от оценщика IPS с точки зрения компромисса смещения и дисперсии.

Например, [1] предложил метод оценки под названием «Нормализованная выборка с ограничением по важности» (NCIS). Этот оценщик вводит параметр λ как попытку контролировать дисперсию оценщика:

Вот как выглядит оценщик в нашем наборе данных:

Рисунок 5 показывает, что оценщик NCIS действительно имеет более низкую дисперсию (менее неровную кривую) по сравнению с оценщиком IPS, но не сходится к истинному ожидаемому вознаграждению, то есть по сравнению с оценщиком IPS оценщик NCIS имеет более низкую дисперсию, но более высокую систематическую ошибку.

Однако [1] утверждал, что до тех пор, пока смещение не влияет на относительный порядок целевых политик-кандидатов, NCIS является хорошим критерием для выбора, какую из набора целевых политик перейти к онлайн-тестированию AB.

Примеры из практики

[2] представил несколько интересных реальных примеров использования идей, обсуждаемых в этой статье. Особенно:

  • Использование оценщика IPS, чтобы решить, какую политику развернуть в Yahoo FrontPage, чтобы рекомендовать истории пользователям.
  • Использование оценщика IPS, чтобы решить, какую политику развернуть в Bing Speller для выбора переформулировки слов в запросах, то есть автозамены

Эти два тематических исследования заслуживают внимания из-за используемой политики регистрации. У первого была политика ведения журнала, которая рекомендует истории пользователям равномерно и в случайном порядке (как в примере, используемом в этой статье), а во втором - нет. Тем не менее, в обоих случаях оценщик IPS может точно оценить ожидаемое вознаграждение от целевых политик.

Заключение

В этой статье обсуждаются основные концепции, лежащие в основе использования контрфактической оценки для оценки целевых политик в автономном режиме. Ключевым условием является наличие достаточно подробных журналов истории, которые позволили бы построить надежные оценки ожидаемой производительности целевой политики без необходимости подвергать ее развертыванию в производственной среде.

Дайте мне знать в комментариях, если у вас возникнут вопросы. Мне также интересно услышать о других примерах автономных подходов к оценке целевых политик.

Ссылка

[1] Онлайн-оценка для принятия решений об алгоритмах рекомендаций плейлистов. Gruson et. al. 2019 г.

[2] Учебное пособие SIGIR 2016 по контрфактической оценке и обучению для поиска, рекомендаций и размещения рекламы. Иоахим и Сваминатан. 2016 г.

Приложение

Приложение 1. Оценщик IPS - беспристрастный оценщик

В этом разделе будет показано, что оценщик IPS является беспристрастным оценщиком.

Сначала определим некоторые обозначения:

куда:

Чтобы быть ясным, чтобы показать, что IPS Estimator беспристрастен, нам нужно показать:

Итак, начнем:

Сообщите мне в комментариях, если какой-либо из шагов неясен.