Предисловие

Система рекомендаций — одно из самых ценных приложений в области машинного обучения. Теперь людям доступно слишком много информации, система рекомендаций играет ключевую роль в электронной коммерции, музыке, фильмах, новостях, видео, рекламе и т. д., помогая пользователям находить нужную информацию. Традиционное распознавание объектов изображения, распознавание эмоций на естественном языке, распознавание частей речи и т. д. требуют большого количества ручных аннотаций, в то время как поле системы рекомендаций содержит большой объем данных о поведении пользователя, что делает систему рекомендаций практичной.

Система рекомендаций — это особая область по сравнению с задачами обучения с учителем. Взяв в качестве примера задачу обучения с учителем распознавания цифровых изображений, для каждого образца изображения существует определенная цель, указывающая, какая цифра изображения. Но цель рекомендательной системы, уровень интереса пользователя к контенту, не так ясна, как традиционная проблема обучения с учителем. Например, если романтические фильмы постоянно рекомендуются пользователям, которые в них не заинтересованы, в один прекрасный день пользователю нечего смотреть, и он начинает смотреть наименее интересные романтические фильмы. Пользователь посмотрел романтический фильм, значит ли это, что ему интересен романтический фильм? При разработке процесса алгоритма рекомендательной системы есть много подводных камней, одна из которых — выбор данных для оценки или расчет офлайн-метрик.

Проблема

При разработке нового алгоритма рекомендаций данные за деньt-1 и ранее будут использоваться для обучения модели, день t данные будут использоваться для проверки модели, офлайн-метрики будут рассчитываться по новому алгоритму и исходному алгоритму. Запускаем AB-тестирование, если офлайн-метрика нового алгоритма лучше исходной. Наконец, мы будем делать окончательное суждение о влиянии алгоритма по результату онлайн-тестирования AB.

Процесс расчета офлайн-метрики выглядит разумно, но есть ловушка.

Новый алгоритм расчета метрики тестирования AB основан на данных о поведении пользователей, сгенерированных новым алгоритмом. Новый алгоритм расчета офлайн-показателей основан на данных о поведении пользователей, сгенерированных исходным алгоритмом. Чем больше разница между результатами двух алгоритмов, тем больше разница между результатами показателя тестирования AB и показателя в автономном режиме. По сравнению с исходным алгоритмом исходный алгоритм всегда имеет преимущества. Такая офлайн-метрика не отражает истинного уровня алгоритма в тестировании АБ.

Объясним это на математике.

uᵢ: Один пользователь в системе рекомендаций

pⱼ: Одна продукция в рекомендательной системе, которую можно рекомендовать

πₓ: рекомендательный алгоритм, определяющий вероятность того, что uᵢ может увидеть pⱼ. Например, в списке рекомендаций алгоритм рекомендаций может определять порядок элементов в этом списке. Факторы алгоритмов сортировки и самого пользователя, а также системные факторы и некоторые неконтролируемые факторы определяют вероятность того, что пользователь увидит элемент.

π𝘤: Алгоритм контрольной группы в тестировании AB. это всегда рекомендуемый алгоритм, используемый в текущей системе.

π𝑡: Алгоритм группы лечения при тестировании Ab, это всегда предлагаемый новый алгоритм.

rᵢⱼ: награда, если вы видите pⱼ

yᵢⱼ(πₓ): в рекомендации с алгоритмом πₓ, наблюдаемая награда относительно uᵢ и pⱼ, yᵢⱼ(πₓ) = rᵢⱼ πₓ(pⱼ|uᵢ)

Целью оптимизации рекомендательной системы является расчет наблюдаемой отдачи от пользовательских данных, сгенерированных в соответствии с алгоритмом рекомендаций πₓ.

Однако при расчетах метрик в автономном режиме наблюдаемый yᵢⱼ(π𝘤) всегда используется как истинный доход rᵢⱼ для оценки общего дохода нового алгоритма.

Так как

π𝑡(pⱼ | uᵢ) ≤1, оно должно быть меньше или равно 1, потому что это вероятность.

Таким образом, автономная метрика имеет тенденцию быть хуже, чем автономная метрика исходного алгоритма. Вышеизложенное является простым математическим выводом. Chen, Hung-Hsuan и другие¹ выполнили детальное моделирование реального сценария системы рекомендаций для этой проблемы.

Возможное решение

Для небольшого количества пользователей дайте им случайную рекомендацию, чтобы наблюдаемые результаты были справедливыми для разных алгоритмов. и офлайн-метрика разных алгоритмов рассчитывается через поведение пользователя этой части. Подробнее см. в Best Paper² конференции ACM 2018 по системам рекомендаций.

Представьте идею обучения с подкреплением, используйте наблюдаемую отдачу yᵢⱼ(πₓ) и результат π𝑡(pⱼ | uᵢ) исходного метода, чтобы оценить rᵢⱼ,

то офлайн-метрика может быть скорректирована на

И, конечно же, реализации будут сталкиваться с различными проблемами. Такие задачи, как π𝑡(pⱼ | uᵢ), близки к 0, из-за чего предполагаемое rᵢⱼ может быть очень большим. Дополнительные сведения см. в Разделе 5.5 «Прогнозирование политики с помощью выборки по важности в обучении с подкреплением: введение».

Вывод

При расчете офлайн-метрики, при использовании поведения пользователя, сгенерированного исходным алгоритмом, для расчета метрики нового алгоритма, исходный алгоритм всегда имеет преимущество, поэтому данные должны быть передискретизированы, и тогда вычисление офлайн-метрики более в соответствии с работой алгоритма в тестировании AB.

Нам нужно не только выполнить выборку данных оценки, но также необходимо выполнить аналогичную обработку выборки данных обучения, чтобы распределение данных обучения соответствовало распределению данных оценки, тогда алгоритм может изучить предпочтения пользователя. аналогичны оценочным данным.

использованная литература

  1. Чен, Хун-Хсуан и др. «Распространенные ошибки при обучении и оценке рекомендательных систем». Информационный бюллетень исследований ACM SIGKDD 19.1 (2017): 37–45
  2. Боннер, Стефан и Флавиан Василе. «Причинные вложения для рекомендации». Материалы 12-й конференции ACM по рекомендательным системам. АКМ, 2018.
  3. Саттон, Ричард С. и Эндрю Г. Барто. Обучение с подкреплением: введение. Массачусетский технологический институт, 2018.