4 типа пользователей, которые могут вызвать аномалию в рекомендательных системах

Системы рекомендаций

4 типа пользователей, которые могут вызывать аномалии в рекомендательных системах

Как работать с разными типами пользователей в рекомендательных системах

В социальных сетях и платформах электронной коммерции, где публикуется много контента, очень важно показывать пользователям подходящий. Существует ограниченный объем контента, который пользователи могут просматривать после входа на платформу. Следовательно, это содержимое должно выбираться системой или механизмом, который может адаптивно прогнозировать склонности пользователя. Большинство сервисов в Интернете используют такую систему для повышения удобства работы пользователей. Поэтому Netflix показывает вам сериал, отличный от того, что показывает вашим друзьям.

Система, которая индивидуально прогнозирует релевантный контент для пользователей в соответствии с их действиями, называется Система рекомендаций или рекомендаций. В основном они работают с данными, которые включают в себя действия пользователей на платформах, а не демографические данные. Категории, издатели, время отображения содержания могут быть примерами этих действий. Однако в моделях рекомендаций используются два типа данных: явные и неявные. Явные данные включают информацию, полученную непосредственно от пользователя, например оценки, лайки или аплодисменты (как в Medium). Неявные данные представляют собой информацию, собранную в результате действий пользователя, таких как время отображения, количество отображений и т. Д. Поскольку на платформах существуют разные типы пользователей / использующих, они оба должны быть предварительно обработаны, чтобы найти аномалии, которые они могут вызвать. В этой статье я объясню несколько моментов, которые необходимо принять во внимание, чтобы дать гораздо более обоснованные рекомендации. Я сосредоточусь на оценочных данных (явных) и рассмотрю рейтинг крутых, щедрых и опытных пользователей.

Рейтинги

Рейтинги - это одна из основных сведений, которые используются для предложения пользователям релевантных товаров на основе их оценок. Это прямая обратная связь, полученная от пользователей. Следовательно, можно создавать рекомендательные модели только по ставкам без демографии пользователей. Идея состоит в том, чтобы найти похожих пользователей на основе их рейтингов и рекомендовать контент в соответствии с их сходством. Короче говоря, системы рекомендуют предметы на основе идеи: тем, кому понравился мой лайк, могут понравиться и другие мои лайки.

Данные рейтинга помогают улучшить ваш алгоритм рекомендаций. Однако это может привести к получению недействительных результатов в случае несогласованности отзывов пользователей. Поэтому очень важно знать, как предотвратить аномалии в ваших данных. Пользователи, которые могут вызвать эти аномалии, можно разделить на четыре разные категории: жесткие, щедрые, ветераны и холодный старт. Предположим, существует платформа, которая позволяет пользователям оценивать контент от 1 до 5. Жесткие оценщики представляют население, которое редко ставит пять звезд. Щедрые оценщики обычно дают высокие звезды контенту, который они видят в каждой категории или в любой области. Рейтеры холодного старта - это новички в платформе. Таким образом, они не оставляют достаточно информации о том, что им нравится. Опытные оценщики - это пользователи, которые использовали платформу много лет. Принимая во внимание эти четыре типа пользователей, рейтинговые данные должны быть предварительно обработаны, чтобы избежать аномалий. Во-первых, мы должны определить, какой тип данных может вызвать аномалию. Разберем все по шагам.

Работа с жесткими и щедрыми оценщиками

Первые рейтинговые данные, которые могут вызвать аномалию, - это рейтинги жестких и щедрых оценщиков. Целью модели рекомендаций является прогнозирование пользовательского рейтинга данного контента. Например, есть три фильма как A, B и C. Мы хотим знать, какой фильм мы должны показать пользователю X. Модель должна дать нам прогноз рейтинга данной комбинации пользователь-элемент. В этом случае прогнозируемая переменная - это переменная, которая показывает значения рейтинга. Жесткие или щедрые оценщики могут вызвать аномалию в этой переменной, потому что они будут отклонять низкие или высокие оценки от нормальных. Таким образом, данные, включающие жесткие оценки пользователей, могут ввести в заблуждение рекомендации. Пожалуйста, попытайтесь понять это из рисунка 1.

Диаграммы разброса представляют оценки двух пользователей, просмотревших одни и те же фильмы от 1 до 5. Рейтинги пользователя X оказались ниже, чем оценки пользователя Y. Согласно рейтингам, пользователю X не нравился контент так сильно, как пользователю Y понравилось. Таким образом, контент, понравившийся пользователю Y, не будет рекомендован пользователю X системой. Однако, если вы видите линии, вы можете видеть, что они рисуют одну и ту же форму с разными значениями рейтинга. Это приводит нас к двум возможным выводам. Во-первых, пользователь x жестче, чем пользователь Y, пока он ставит звезды. Во-вторых, пользователь y более щедр, чем пользователь X, когда ставит звезды. Таким образом, обоим пользователям понравился фильм C, G и не понравился фильм A, D и F. Мы можем понять эту ситуацию, посмотрев значение рейтинга от другого пользователя. Однако проблема состоит в том, чтобы составить алгоритм рекомендаций, чтобы понимать ситуацию такого типа так же, как и мы. Решением является стандартизация рейтинговых значений с использованием среднего значения и стандартного отклонения. На рисунке 2 показано распределение оценок пользователей после их стандартизации.

Как видно из рисунка 2, те же значения рейтинга были получены после стандартизованных оценок пользователей. Таким образом, фильмы, понравившиеся «Пользователю Y», могут быть рекомендованы системой «Пользователю X». Здесь делается упор на то, что вместо стандартизации всех рейтинговых данных, собираемых от всех пользователей, нам необходимо стандартизировать значения рейтингов на основе пользователей.

Работа с опытными пользователями

Есть типы пользователей, которые использовали платформу месяцами или годами на каждой платформе. Со временем точка зрения пользователей на разные типы контента может измениться. Это также может привести к еще одной нежелательной аномалии в наших данных. Например, время от времени пользователю могут нравиться боевики больше, чем документальные. Таким образом, использование всех рейтинговых данных ветеранов может привести к непоследовательным рекомендациям для него или аналогичных ему пользователей. Пожалуйста, посмотрите рисунок 3, чтобы понять это более ясно.

В первый месяц пользователь ставит высокие оценки боевикам и низкие рейтинги научно-фантастическим. Однако уже на второй месяц пользователь начинает отдавать более высокие ставки научной фантастике, а более низкие - боевикам. Предположим, мы создали модель рекомендаций, используя рейтинговые данные за первый и второй месяц. Мы хотим рекомендовать фильмы этому пользователю в течение второго месяца. Поскольку мы использовали данные за два месяца, модель может рекомендовать боевики, которые даже пользователи не хотят смотреть. Поэтому рейтинги следует выбирать на основе текущих действий пользователя, чтобы избежать подобных нежелательных рекомендаций. Однако также возможно взвесить значение рейтинга в соответствии с их датами.

Пользователи холодного старта

Пользователи, которые не знакомы с платформой, могут быть проблемой в рекомендательных системах. Потому что не хватает информации о том, что им нравится. Эти типы пользователей называются пользователями холодного старта. Эту проблему важно решить, потому что существует высокий риск потерять новых пользователей, если им не понравится то, что им рекомендует система.

Мы можем подумать, что демографические данные пользователей могут быть одним из решений. Однако в настоящее время большая часть платформы даже не спрашивает ваш пол при регистрации. Так что использования демографических данных недостаточно. Другой может быть геолокация. Можно рекомендовать элементы / содержимое на основе тенденции их геолокации. Это может быть полезно для фильмов, но не для таких платформ, как Medium. Потому что там слишком много тем, категорий, авторов и статей. Так что и этот вариант не решает проблему глобально.

Решение и то, что делают большинство платформ, может заключаться в том, чтобы предлагать пользователю варианты того, какой контент он хотел бы видеть на платформе. Такие платформы, как Pinterest, Medium, Netflix спрашивают, какой тип контента вас интересует после регистрации. Он на время отображает контент, связанный с вашим выбором. Затем вы немного начинаете входить в данные рекомендательного алгоритма с вашими рейтингами и дисплеями.

Выводы

В этой статье обсуждались четыре типа пользователей, которые могут вызывать аномалии в рекомендательных системах. Количество разных пользователей может увеличиваться или уменьшаться в зависимости от требований платформы. Однако также возможно определить другие критерии наклона, такие как количество дисплеев или время отображения контента. Те же четыре типа пользователей могут вызвать аномалию и по этим критериям. Например, одни пользователи смотрят видео целиком, а другие - по частям. Таким образом, можно сказать, что время просмотра может быть разным, даже если пользователи положительно относятся к видео, как и значения рейтинга.