TrustSVD: совместная фильтрация с явным и неявным влиянием доверия пользователей и…

Г. Го, Дж. Чжан и Н. Йорк-Смит

Материалы AAAI 2015, 2015 г.

Я подготовил этот раздаточный материал на одной странице как часть своей презентации для курса «Доверие и онлайн-социальные сети» (CS-886) в Университете Ватерлоо.

Введение в рекомендательные системы (RS)

RS предоставляет пользователям персональные рекомендации в зависимости от их вкуса.
Конкурс Netflix, начавшийся в октябре 2006 года, стимулировал исследования в этой области.
Один из наиболее успешных методов в RS называется Collaborative Filtering (CF): он анализирует прошлые транзакции, чтобы сформулировать связи между пользователями и элементами.
Модели учатся на явных, неявных и вспомогательных данных.

Методы CF

На основе памяти: вычисление взаимосвязей между похожими пользователями и/или элементами. Бывший. метод соседства.
На основе модели: пытается смоделировать каждого пользователя и/или элемент и их взаимодействия. Бывший. Скрытые факторные модели, байесовские модели, глубокое обучение.
Гибрид: использует преимущества обоих. Например, СВД++.

Матричная факторизация (SVD)

Матрица R представляет собой матрицу пользователей и элементов с оценками, которые пользователи поставили определенным элементам. Как и следовало ожидать, большинство значений в этой матрице отсутствуют, поскольку средний пользователь оценивает очень небольшой процент всех элементов. Основная цель матричной факторизации состоит в том, чтобы заменить эти пропущенные значения.

Суть состоит в том, чтобы найти две матрицы низкого ранга (SVD): матрица пользовательских характеристик (p) (KxM) и матрица характеристик элементов (q) (KxN), которые могут регенерировать R (MxN). K обозначает размеры скрытого векторного пространства.

Изучите матрицу характеристик пользователя и элемента, минимизируя следующую функцию потерь с помощью SGD, ALS и т. д. Регуляризация L2 применяется к функции потерь, чтобы уменьшить переоснащение.

SVD++:Koren (2008) заметил, что включение неявной обратной связи с пользователем в модель может привести к гораздо более точному прогнозу. Они предложили следующее правило предсказания:

I содержит набор элементов, по которым была получена неявная обратная связь для пользователя u. Дополнительный термин (добавленный к p) представляет скрытые функции пользователя с точки зрения элементов, которые пользователь ранее оценил. Интуиция заключается в том, что ранее оцененные пользователем элементы, которые, как известно, являются прогнозирующими для текущего элемента, должны учитываться при прогнозировании.

Доверьтесь RS

Информация о доверии хорошо дополняет рейтинговую информацию.
Используется в основном для устранения некоторых известных проблем, таких как холодный запуск и разреженность данных.
Даже лучшая производительность, о которой сообщалось в последней работе до этого, уступала другим современным моделям только для рейтинга.

Обзор литературы по моделям, основанным на доверии

Все более ранние модели использовали только явные данные о доверии.
SoRec: общая матрица пользовательских характеристик учитывает рейтинги и доверие. (2008)
RSTE: Линейно сочетает базовую матричную факторизацию и модель соседства на основе доверия. (2009)
SoReg: модель MF, в которой в качестве условия регуляризации используется тот факт, что скрытый вектор пользователя должен быть ближе к среднему значению его доверенных соседей. (2011)
SocialMF: построен на основе SoRec; использует вклады доверенных пользователей для формирования латентных векторов активного пользователя вместо предсказания отсутствующих оценок. (2010)
TrustMF: использует информацию как от пользователей, которым доверяет пользователь, так и от тех, кто доверяет пользователю, для прогнозирования оценок активного пользователя. (2013)

TrustSVD: включает явные, а также неявные данные социального доверия в модель SVD++.

Мы можем обозначить информацию о доверии с помощью матрицы T(MxM), которая указывает степень, в которой один пользователь доверяет другому. Затем с помощью SVD найдите две матрицы более низкого ранга p (KxM) (матрица признаков доверенного лица) и w (KxM) (матрица признаков доверенного лица), чтобы узнать доверительные отношения. Матрица p является общей для R и T (явное доверительное обучение). Матрицы p и w можно узнать, минимизировав функцию потерь, аналогичную приведенному ранее уравнению:

Окончательный прогнозируемый рейтинг с неявным рейтингом и информацией о доверии может быть задан уравнением ниже. Дополнительный термин представляет скрытые функции пользователя с точки зрения доверительных отношений с другими пользователями. Таким образом, предмет, получивший высокую оценку ее доверенных пользователей, получит более высокие оценки.

Модель поощряет большие отклонения от базовых оценок для пользователей, которые поставили больше оценок или лучше общались в социальных сетях, и придерживается базовых прогнозов для пользователей, которые меньше взаимодействуют с системой. Корен (2008) заметил, что модель работала лучше, когда это поведение было немного смягчено. Следовательно, члены делятся на количество элементов для пользователя u в матрицах I и T.
Окончательная функция потерь представляет собой унифицированную рекомендательную модель, учитывающую оба типа информации. Добавлено несколько дополнительных условий регуляризации, чтобы избежать дальнейшего переобучения.

Набор данных и его анализ

Модель использует для анализа 4 реальных набора данных, а именно Epinions, FilmTrust, Flixster и Ciao.
Данные о доверии даже разрежены, чем данные рейтинга во всех наборах данных, кроме Ciao.
Авторы заметили, что даже неактивные пользователи (с точки зрения рейтинга) по-прежнему были социально связаны с другими пользователями, что помогло решить проблему холодного запуска.
Существует высокая корреляция между рейтингом пользователя и средним рейтингом его социальных соседей.

Показатели оценки

Для обучения и тестирования используется пятикратная перекрестная проверка.
RMSE и MAE используются в качестве показателей оценки ошибок.
Два представления набора данных создаются для тестирования. Один из них учитывает все оценки (представление «Все»), а другой нацелен на данные «холодного запуска» (особенно пользователей, которые оценили менее пяти элементов) (представление «Холодный запуск»).

Результаты

Авторы сравнивают свои результаты с базовыми моделями, современными моделями только для оценки и некоторыми последними моделями, которые также включают данные о доверии.
Улучшает точность других моделей, за исключением расчета метрики MAE для набора данных Epinions.

Заключение/Мысли

Представляет значительное улучшение в моделировании информации о доверии и усиливает важность неявных данных.
Модель SVD++, используемая в этой статье, является второй лучшей моделью с точки зрения производительности, упомянутой в исходной статье. Лучшей моделью была гибридная, в которой используется смесь латентного фактора и модели соседства. Было бы интересно увидеть результаты в этом случае.
Было бы интересно использовать эти конкретные данные и доверять данным в целом в машинах факторизации (сочетающих преимущества SVM с моделями факторизации), которые специализируются на работе с разреженными данными.
Моделирование доверия к рекомендательной задаче ранжирования элементов вместо предсказания рейтинга (это было сделано авторами в 2016 году).

Ссылки

Джамали М. и Эстер М. 2010. Метод матричной факторизации с распространением доверия для рекомендаций в социальных сетях. В материалах 4-й конференции ACM по системам рекомендаций (RecSys), 135–142.
Корен, Ю. 2008. Факторизация встречает окрестности: многогранная модель совместной фильтрации. В материалах 14-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных (KDD), 426–434.
Ма, Х .; Ян, Х .; Лю, М .; и Кинг, И. 2008. SoRec: социальная рекомендация с использованием вероятностной матричной факторизации. В материалах 31-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска (SIGIR), 931–940.
Ма, Х .; Чжоу, Д .; Лю, К.; Лю, М. Р.; и Кинг, И. 2011. Рекомендательные системы с социальной регуляризацией. В материалах 4-й Международной конференции ACM по поиску в Интернете и интеллектуальному анализу данных (WSDM), 287–296.
Ма, Х .; Кинг, И.; и Лю, М. 2009. Учимся рекомендовать ансамбль социального доверия. В материалах 32-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска (SIGIR), 203–210.
Салахутдинов Р. и Мних А. 2008. Вероятностная матричная факторизация. В Достижениях в области систем обработки нейронной информации (NIPS), том 20, 1257–1264.
Ян, Б .; Лей, Ю .; Лю, Д.; и Лю, Дж. 2013. Социальная совместная фильтрация по доверию. В материалах 23-й Международной объединенной конференции по искусственному интеллекту (IJCAI), 2747–2753.
Штеффен Рендл (2010): Машины факторизации, в материалах 10-й Международной конференции IEEE по интеллектуальному анализу данных (ICDM 2010), Сидней, Австралия.

TrustSVD: совместная фильтрация с явным и неявным влиянием доверия пользователей и…

Г. Го, Дж. Чжан и Н. Йорк-Смит

Вопросы по теме