Рекомендательные системы используются многими веб-сайтами для персонализации контента и уменьшения информационной перегрузки для потребителей. Однако неясно, какую ценность для бизнеса создают эти системы, а существующая литература разрознена. В этом комментарии к исследованию рассматриваются полевые испытания рекомендательных систем и показатели их эффективности, связанные с бизнесом. Обсуждаются проблемы измерения ценности бизнеса, а также ценность алгоритмических улучшений и автономных экспериментов. В целом, остается еще много вопросов без ответов относительно реалистичной количественной оценки бизнес-эффектов и оценки эффективности алгоритмов.

ВВЕДЕНИЕ

Рекомендательные системы, основанные на технологиях искусственного интеллекта и машинного обучения, широко используются в нашей повседневной онлайн-деятельности, такой как электронная коммерция, потоковая передача мультимедиа и социальные сети. Эти системы предлагают товары, которые могут нас заинтересовать и создать ценность для потребителей, поставщиков и других заинтересованных сторон. В то время как академические исследования сосредоточены на повышении ценности для клиентов, поставщики оценивают успех системы на основе бизнес-показателей, таких как продажи, рейтинг кликов, вовлеченность пользователей и уровень удержания клиентов.

Положительное влияние рекомендательных систем на бизнес широко признано, но масштабы этих эффектов по сравнению с другими алгоритмами или отсутствием системы вообще не всегда ясны. Сообщаемые цифры сильно различаются, и может быть трудно определить, на какой конкретной мере следует сосредоточиться в определенных областях приложений. Хотя рейтинг кликов часто используется в качестве меры, он может не точно отражать долгосрочную коммерческую ценность рекомендательной системы.

Сложно понять, принесет ли улучшение алгоритма рекомендаций пользу бизнесу. Компании часто проводят полевые испытания и автономные эксперименты, чтобы оценить влияние изменений. Однако трудно измерить прямую коммерческую ценность этих экспериментов. Исследователи обычно предсказывают предпочтения или действия пользователей, но неясно, насколько полезны эти измерения для оценки потенциальной ценности усовершенствований алгоритмов для бизнеса. Офлайн-эксперименты также не всегда являются надежным предиктором результатов полевых испытаний (A/B-тестов).

Таким образом, есть две потенциальные проблемы с оценкой влияния рекомендаций на бизнес: неадекватное определение, измерение и анализ ценности для бизнеса и переоценка ценности развертывания сложных алгоритмов, основанных на абстрактных вычислительных показателях. Например, победившая стратегия конкурса Netflix Prize так и не была реализована, несмотря на теоретический прирост точности, поскольку было неясно, оправдает ли увеличение ценности для бизнеса инженерные усилия, необходимые для того, чтобы сделать ее масштабируемой.

В этой статье мы рассмотрим литературу о реальном развертывании рекомендательных систем, включая как персонализированные, так и интерактивные подходы. Наша цель — предоставить поставщикам онлайн-услуг и розничным продавцам основу для оценки ценности инвестиций в рекомендательную технологию. Мы также обобщаем научные исследования, изучающие взаимосвязь между алгоритмическими улучшениями и восприятием и принятием пользователями. Наконец, мы обсудим последствия нашего исследования для промышленности и научных кругов.

Как измеряются и регистрируются эффекты рекомендательных систем?

Когда компании внедряют рекомендательную систему, они оценивают ее влияние и ценность для бизнеса на основе таких факторов, как домен приложения и бизнес-модель. Например, компании с моделями на основе рекламы (например, YouTube или сайты сбора новостей) могут стремиться повысить вовлеченность пользователей, в то время как компании с моделями фиксированной подписки (например, сервисы потоковой передачи музыки) могут отдавать приоритет удержанию. В электронной коммерции целью может быть прямое стимулирование продаж (например, на сайте электронной коммерции) или изменение поведения потребителей в сторону более прибыльных товаров. Бизнес-модель и цели определяют, как компании измеряют ценность рекомендателя. Различные подходы к измерению более подробно обсуждаются в следующих разделах.

CTR (рейтинг кликов)

CTR используется для измерения того, сколько кликов получают рекомендации, и обычно используется в новостных рекомендациях. Были протестированы различные алгоритмы: персонализированные рекомендации привели к увеличению числа кликов в Новостях Google на 38 %, а гибридная система совместной работы на основе контента привела к увеличению CTR для Forbes.com на 37 %. Также были учтены местные тенденции и индивидуальные интересы пользователей, а метод контекстного дерева (CT) привел к увеличению CTR на 35% для более длительных пользовательских сеансов. CTR также использовался в исследовательских статьях, социальных сетях и видеорекомендациях, а алгоритм совместного посещения привел к увеличению CTR для YouTube на 200%. В рекомендациях по похожим товарам eBay показал увеличение CTR на 38% и 36% для разных подходов. Интересно, что случайный рекомендатель оказался лучше с точки зрения CTR, чем рекомендатель «Самый популярный».

Коэффициенты принятия и конверсии

В рекомендательных сценариях рейтинг кликов не является лучшим показателем успеха по сравнению с онлайн-бизнес-моделями, основанными на рекламе. Хотя CTR может указывать на интерес пользователя, он не может определить, действительно ли пользователям понравился рекомендуемый контент или они купили продукт на основе рекомендации. Поэтому для оценки эффективности рекомендаций используются другие меры, основанные на факторах, специфичных для предметной области.

YouTube и Netflix используют альтернативные меры внедрения, чтобы оценить полезность своих рекомендаций. YouTube подсчитывает клики только в том случае, если пользователь просматривает определенную часть видео, в то время как Netflix использует «коэффициент просмотра», чтобы измерить, как часто фильм воспроизводился после того, как его рекомендовали. Согласно их экспериментам, персонализированные рекомендации значительно увеличивают количество откликов по сравнению с рекомендациями, основанными на популярности. Однако никаких подробных цифр в источниках не приводится.

В отраслях, где продукты не могут потребляться напрямую, обычно используются другие меры адаптации. Например, eBay использует ставки «сквозной покупки» и «сквозной ставки», в то время как рекомендации исследовательских работ используют ставки «сквозной ссылки» или «сквозного цитирования», а онлайн-рынки подсчитывают события «клик-аут» для внешних партнеров. Тестирование, проведенное на eBay, показало, что новый алгоритм поиска похожих товаров улучшил показатели конверсии ставок на 3,3–9 %, а коэффициенты совершения покупок — на 1,5–3 % %.
В целом авторы пришли к выводу, что их новая система на основе вероятностной кластеризации — если он будет запущен после шести месяцев A/B-тестирования и настройки, это приведет к 3-5-кратному улучшению по сравнению с их текущим алгоритмом, который является методом совместной фильтрации с ближайшим соседом. на уровне категорий. В другом тесте на eBay новый алгоритм рекомендации похожих товаров привел к увеличению количества действий «добавить в список желаний» на 89%. На небольшом рынке электронных гаджетов альтернативные стратегии рекомендаций увеличили количество кликов на внешнем рынке более чем на 250%.

Различные сценарии рекомендаций имеют разные показатели успеха. Было замечено, что совместная фильтрация улучшает показатель эффективности рекомендаций от людей к людям на порталах онлайн-знакомств и порталах вакансий. Было показано, что рекомендации по навыкам увеличивают количество пользователей, добавляющих навыки. Мерой успеха развернутой системы рекомендаций по туризму является количество запросов на контакт. Было обнаружено, что метод ранжирования наивного Байеса увеличивает конверсию в полевых испытаниях на Booking.com. Рекомендации в сфере туризма основаны на интерактивно собранных предпочтениях пользователей.

Продажи и выручка

Успех рекомендательной системы измеряется не только рейтингом кликов, но и ее влиянием на продажи и доход. Однако сложно определить реальную коммерческую ценность рекомендательной системы. , так как более активное использование не обязательно приводит к пропорциональному увеличению дохода.Существуют различные бизнес-модели для рекомендателей, такие как увеличение продаж или абонентской платы, но лишь немногие статьи сообщают об их влиянии. из-за конфиденциальных данных и сложности выделения эффектов рекомендателя от других факторов. В случае с Netflix, например, продление подписки является желаемым эффектом рекомендателей, но при очень низких показателях оттока в целом трудно объяснить различия в показателях оттока изменениями в алгоритме рекомендаций.

Влияние на распределение продаж

Влияние персонализированных рекомендаций на продажи не ограничивается количеством купленных товаров; это также может повлиять на то, какие предметы будут куплены. У рекомендателей есть потенциал убедить клиентов покупать определенные товары, такие как дополнительные продукты или товары премиум-класса с более высокой прибылью. Например, продавец одежды может порекомендовать подходящие туфли к каждой купленной паре брюк.

Введение персонализированных рекомендаций может существенно повлиять на покупательское поведение потребителей, как показано в нескольких исследованиях. Например, внедрение интерактивного рекомендателя для сигар премиум-класса привело к увеличению количества покупок в длинном хвосте, что привело к отходу от доминирования нескольких лидеров продаж. Точно так же Netflix измеряет «эффективный размер каталога» для оценки пользовательского исследования, которое увеличивается при наличии персонализированных рекомендаций и отходит от популярных товаров. Однако сдвиг в распределении потребления не обязательно ведет к увеличению ценности бизнеса, как это видно на примере усовершенствованной системы рекомендаций по новостям, которая крала клики из других частей веб-сайта. Кроме того, рандомизированный полевой эксперимент показал, что наличие рекомендательной системы на веб-сайте североамериканского интернет-магазина привело к снижению совокупного разнообразия продаж, измеряемого коэффициентом Джини, несмотря на увеличение количества просмотров нишевых товаров и продаж.

Поведение и вовлеченность пользователей

Исследования показывают, что в различных областях более активное взаимодействие пользователей с рекомендательными системами приводит к увеличению удержания пользователей и ценности для бизнеса. Исследования в реальном мире сообщают о повышении активности пользователей с рекомендателями, например о более длительном посещении новостных сайтов и увеличении числа пользовательских сеансов для персонализации мобильного контента. Различные стратегии рекомендаций также влияют на уровень активности и лояльность пользователей, при этом стратегия, которая объединяет данные об использовании и контенте, приводит к самым высоким уровням активности в области музыкальных рекомендаций. Кроме того, увеличение разнообразия списков рекомендаций может привести к повышению активности и вовлеченности пользователей.

Проблемы определения коммерческой ценности рекомендательных систем

Прямые измерения

В предыдущем разделе было показано, что существуют различные типы эффектов, которые можно измерить для рекомендательных систем. Для электронной коммерции измерение влияния на продажи или доход — это прямой способ оценить ценность бизнеса, но важно согласовать измерение с бизнес-целями. A/B-тесты широко используются, но они имеют ограничения, поскольку фиксируют только краткосрочные эффекты. Рекомендация менее популярных товаров может иметь долгосрочные последствия для продаж, поскольку покупатели открывают для себя новые категории продуктов или переключаются на платные. версия ранее рекомендованного бесплатного продукта.

Косвенные измерения

Рейтинг кликов и принятия не всегда являются надежными показателями ценности бизнеса. Высокий CTR может быть результатом кликбейта, а популярные рекомендации могут усиливать фильтры и игнорировать менее популярные элементы. Персонализация также может привести к простому эффекту присутствия, из-за чего трудно оценить эффективность рекомендации только на основе количества запусков потоковой передачи.
Для рекомендации мобильных игр использовались различные показатели, включая рейтинг кликов и загрузки игр. Однако количество просмотров и загрузок не было надежным предиктором успеха в бизнесе. Некоторые алгоритмы вызывали интерес у потребителей, но не приводили к загрузкам, в то время как другие были нацелены на продвижение часто скачиваемых игр. Измерение ценности рекомендательной системы для бизнеса является сложной задачей, и вовлечение пользователей часто рассматривается как косвенный показатель ценности для бизнеса в определенных областях. Вышеприведенная таблица суммирует эти наблюдения.

Выбор алгоритма и ценность алгоритмических улучшений

Новые улучшения системы рекомендаций сильно различаются в зависимости от базового сравнения. В среднем сообщается об увеличении продаж на 1–5 %, а в некоторых случаях после удаления рекомендательного компонента произошло падение продаж на 17 %. Исследования часто сравнивают различные алгоритмические подходы, но успех рекомендательной системы зависит от таких факторов, как доверие пользователей, прозрачность и пользовательский интерфейс. Сочетание улучшений пользовательского интерфейса с усовершенствованиями алгоритмов может быть более перспективным, чем сосредоточение внимания исключительно на улучшенных алгоритмах.

Подводные камни полевых испытаний

A/B-тесты обычно используются крупными компаниями для определения результатов внедрения или улучшения рекомендательной системы на веб-сайте. Тесты могут длиться несколько месяцев и фокусироваться на таких показателях, как удержание клиентов и вовлеченность пользователей. Используются статистические методы, чтобы гарантировать, что наблюдаемые различия не вызваны случайными эффектами,но интерпретация результатов все же возможна. могут быть сложными, и в случае возникновения непредвиденных эффектов может потребоваться повторение тестов. Проблемы проведения A/B-тестов подробно обсуждаются в [32] на примере Netflix.

[32] К. А. Гомес-Урибе и Н. Хант. e Система рекомендаций Netix: алгоритмы, ценность для бизнеса и инновации. Transactions on Management Information Systems, 6(4):13:1–13:19, 2015 г.

Крупные компании, такие как Google, Microsoft или Amazon, сталкиваются с различными проблемами при проведении надежных A/B-тестов. Выбор критерия оценки является фундаментальной проблемой, поскольку краткосрочные и долгосрочные цели могут иметь противоположные цели. Сообщается о примере, когда ошибка в поисковой системе Microsoft Bing привела к краткосрочному увеличению количества запросов на пользователя, но к долгосрочному снижению удержания клиентов из-за низкого качества поиска. Аналогичные эффекты могут возникнуть в контексте оптимизации рейтинга кликов.

Для надежного проведения A/B-тестирования необходимы большие размеры выборки и длительные периоды тестирования, что может замедлить внедрение инноваций. Компании часто ограничивают тестирование новыми пользователями из-за риска плохой реакции пользователей. Существуют предлагаемые методы решения этих проблем, но неясно, реализуют ли их более мелкие компании. Во многих рассмотренных исследованиях отсутствует подробная информация о проведенных тестах и ​​статистических анализах, что может привести к потенциально ненадежным или вводящим в заблуждение результатам.

Проблема использования офлайн-экспериментов для прогнозирования успеха в бизнесе

Академические исследования часто проводят автономные эксперименты с историческими данными из-за сложности и стоимости проведения полевых испытаний. Однако у этого подхода есть ограничения, такие как наборы данных, в которых отсутствует информация, связанная с бизнесом, и предвзятость в собранных данных. Были предприняты усилия для решения этих проблем, включая альтернативные меры оценки и беспристрастные механизмы автономной оценки. Часто цель состоит в том, чтобы поддержать «автономное A/B-тестирование», чтобы избежать дорогостоящих и рискованных полевых испытаний. Исследовательское сообщество активно решает эти проблемы, предлагая новые показатели и решая такие проблемы, как изменение предпочтений пользователей с течением времени.

Ограничения точности в качестве показателя ценности для бизнеса

В дополнение к проблемам, связанным с данными, часто неясно, в какой степени показатели точности, обычно используемые в офлайн-экспериментах (например, среднеквадратическая ошибка, точность или полнота), коррелируют с деловым успехом рекомендателя. Хотя это и так кажется логичным, что алгоритм, который лучше предсказывает, понравится ли элемент пользователю, должен привести к лучшим или более релевантным рекомендациям и повышению ценности для бизнеса, но это не всегда так. Пользователи могут положительно оценивать товары по разным причинам, но могут не покупать аналогичные товары в будущем, потому что они не удовлетворены. В таких случаях более смелая рекомендация могла привести к увеличению продаж.
Показатели точности, используемые в автономных экспериментах для рекомендательных систем, могут не коррелировать с успехом в бизнесе. Исследования показали что самые точные офлайн-модели не приводят к наилучшему восприятию онлайн-успешности или точности. Важно проверять соответствие между оффлайн-метриками и ценностью для бизнеса в каждом случае. Кроме того, акцент на «победе» в отдельных показателях может ограничивать применимость исследований в области прикладного машинного обучения. Простые методы, правильно настроенные, могут превзойти новейшие алгоритмы, основанные на методах глубокого обучения.

Показатели сверхточности: новизна, разнообразие, интуитивность и охват

В рекомендательных системах одной точности недостаточно. Следует учитывать и другие факторы качества, такие как разнообразие и новизна. Существуют различные метрики и алгоритмические предложения, чтобы сбалансировать эти факторы. Контекстно-бандитские подходы могут помочь в решении проблемы «исследуй-эксплуатируй», рекомендуя новые элементы и изучая отзывы пользователей. Эти подходы также противодействуют петлям обратной связи и способствуют охвату и разнообразию пользователей.

В реальных приложениях, описанных в разделе 2, используются измерения, связанные с факторами качества, выходящими за пределы точности, такими как покрытие каталога и диверсификация. Рекомендация разнообразных и релевантных товаров может улучшить разнообразие продаж и повысить вовлеченность и удержание клиентов. Метрики, выходящие за пределы точности, могут улучшить оценку, но необходимы дальнейшие исследования, чтобы определить, насколько хорошо они коррелируют с восприятием пользователей. Также неясно, как разнообразие и новизна включаются в алгоритмы в реальных приложениях. Используются бизнес-ориентированные измерения, связанные с факторами качества, превышающими точность, но мало информации об алгоритмической диверсификации.

Прогнозирование эффектов и ценности для бизнеса

Конечная цель автономного экспериментирования — найти прокси-меры, которые коррелируют с различными мерами успеха в бизнесе. Однако это сложно, потому что показатели успеха часто специфичны для предметной области или бизнес-модели, а исследователи стремятся к обобщенным решениям. В настоящее время у нас есть ограниченные знания о тенденциях семейств алгоритмов, и необходимы дополнительные исследования, чтобы понять, как рекомендатели влияют на поведение потребителей и ценность бизнеса. Простой характеристики алгоритма с помощью абстрактных показателей качества недостаточно без учета практических последствий. Нам нужен более богатый методологический репертуар, включающий имитационные эксперименты и альтернативные способы оценки стоимости бизнеса.

Последствия для бизнеса

При развертывании рекомендательных систем в реальном мире мы обнаружили, что эти системы часто вносят существенный вклад в успех бизнеса, либо напрямую помогая увеличить продажи или прибыль, либо оказывая косвенные положительные эффекты, такие как повышение вовлеченности пользователей, лояльность и удержание клиентов. В целом существует достаточно доказательств того, что рекомендации могут оказывать сильное влияние на поведение пользователей и, следовательно, могут быть полезным инструментом для бизнеса, в том числе для стимулирования потребительского спроса. Тем не менее величина ожидаемого воздействия сильно варьируется в зависимости от конкретной ситуации и используемых измерений. Например, Amazon сообщает, что рефереры генерируют 35% дополнительных продаж за счет перекрестных продаж, но увеличение прямых продаж чаще составляет от 1 до 5%, что может быть значительным в абсолютном выражении.

В целом измерить ценность реферальной системы никогда не бывает легко — даже если продажи или доход поддаются непосредственному измерению в A/B-тестировании, могут возникать долговременные эффекты, которые трудно оценить заранее.< br /> Однако во многих случаях вам придется использовать косвенные показатели, такие как оценка удержания клиентов посредством вовлечения пользователей. В таких ситуациях важно тщательно проверить свои основные предположения, чтобы убедиться, что вы не оптимизируете для неправильных целей. В целом, выбор критериев оценки является одним из наиболее важных аспектов фактического развертывания рекомендаций.

CTR часто используется в качестве критерия выбора, потому что его легко получить, но многие отчеты показывают, что измерение CTR может вводить в заблуждение и на самом деле не отражает ценности для бизнеса. Во избежание Это важно учитывать стратегические или операционные цели вашего бизнеса при разработке алгоритма рекомендаций и оценке его эффективности, в том числе с использованием целевой структуры, такой как следующая

Значение для академических и промышленных исследований

Незначительные изменения в подходах к машинному обучению, такие как корректировка функции потерь, распространены в академических исследованиях, но неясно, приводят ли они к более эффективным рекомендациям. Точность прогноза — это только один из факторов эффективности рекомендательной системы, и более высокие значения отзыва могут быть связаны с предвзятостью к популярным товарам, которые могут ограничивать обнаружение и создавать проблемы для бизнеса.
Опросы полезны для получения отзывов от пользователей и улучшения веб-сайта или качества обслуживания, но отсутствие отраслевых отчетов по результатам опроса может быть связано с опасениями по поводу выявления проблем или идей для конкурентов. Несмотря на это, опросы являются многообещающим инструментом для исследователей, позволяющим понять практическое использование рекомендательных систем.

Заключение

Существуют проблемы с измерением эффективности систем рекомендаций в создании ценности для бизнеса и их влияния на такие показатели, как доход и удержание клиентов. Одних только рейтингов кликов недостаточно для измерения долгосрочной ценности. Предлагаются автономные эксперименты и полевые испытания, но также необходимо учитывать их ограничения. Хотя эти эксперименты улучшают взаимодействие с пользователем, их влияние на бизнес-показатели не совсем ясно. Мы предостерегаем от переоценки ценности сложных алгоритмов и подчеркиваем необходимость лучшего понимания влияния систем рекомендаций на бизнес-показатели.

Ссылка: