Г. Го, Дж. Чжан и Н. Йорк-Смит
Материалы AAAI 2015, 2015 г.
Я подготовил этот раздаточный материал на одной странице как часть своей презентации для курса «Доверие и онлайн-социальные сети» (CS-886) в Университете Ватерлоо.
Введение в рекомендательные системы (RS)
- RS предоставляет пользователям персональные рекомендации в зависимости от их вкуса.
- Конкурс Netflix, начавшийся в октябре 2006 года, стимулировал исследования в этой области.
- Один из наиболее успешных методов в RS называется Collaborative Filtering (CF): он анализирует прошлые транзакции, чтобы сформулировать связи между пользователями и элементами.
- Модели учатся на явных, неявных и вспомогательных данных.
Методы CF
- На основе памяти: вычисление взаимосвязей между похожими пользователями и/или элементами. Бывший. метод соседства.
- На основе модели: пытается смоделировать каждого пользователя и/или элемент и их взаимодействия. Бывший. Скрытые факторные модели, байесовские модели, глубокое обучение.
- Гибрид: использует преимущества обоих. Например, СВД++.
Матричная факторизация (SVD)
- Матрица R представляет собой матрицу пользователей и элементов с оценками, которые пользователи поставили определенным элементам. Как и следовало ожидать, большинство значений в этой матрице отсутствуют, поскольку средний пользователь оценивает очень небольшой процент всех элементов. Основная цель матричной факторизации состоит в том, чтобы заменить эти пропущенные значения.
- Суть состоит в том, чтобы найти две матрицы низкого ранга (SVD): матрица пользовательских характеристик (p) (KxM) и матрица характеристик элементов (q) (KxN), которые могут регенерировать R (MxN). K обозначает размеры скрытого векторного пространства.
- Изучите матрицу характеристик пользователя и элемента, минимизируя следующую функцию потерь с помощью SGD, ALS и т. д. Регуляризация L2 применяется к функции потерь, чтобы уменьшить переоснащение.
SVD++:Koren (2008) заметил, что включение неявной обратной связи с пользователем в модель может привести к гораздо более точному прогнозу. Они предложили следующее правило предсказания:
- I содержит набор элементов, по которым была получена неявная обратная связь для пользователя u. Дополнительный термин (добавленный к p) представляет скрытые функции пользователя с точки зрения элементов, которые пользователь ранее оценил. Интуиция заключается в том, что ранее оцененные пользователем элементы, которые, как известно, являются прогнозирующими для текущего элемента, должны учитываться при прогнозировании.
Доверьтесь RS
- Информация о доверии хорошо дополняет рейтинговую информацию.
- Используется в основном для устранения некоторых известных проблем, таких как холодный запуск и разреженность данных.
- Даже лучшая производительность, о которой сообщалось в последней работе до этого, уступала другим современным моделям только для рейтинга.
Обзор литературы по моделям, основанным на доверии
- Все более ранние модели использовали только явные данные о доверии.
- SoRec: общая матрица пользовательских характеристик учитывает рейтинги и доверие. (2008)
- RSTE: Линейно сочетает базовую матричную факторизацию и модель соседства на основе доверия. (2009)
- SoReg: модель MF, в которой в качестве условия регуляризации используется тот факт, что скрытый вектор пользователя должен быть ближе к среднему значению его доверенных соседей. (2011)
- SocialMF: построен на основе SoRec; использует вклады доверенных пользователей для формирования латентных векторов активного пользователя вместо предсказания отсутствующих оценок. (2010)
- TrustMF: использует информацию как от пользователей, которым доверяет пользователь, так и от тех, кто доверяет пользователю, для прогнозирования оценок активного пользователя. (2013)
TrustSVD: включает явные, а также неявные данные социального доверия в модель SVD++.
- Мы можем обозначить информацию о доверии с помощью матрицы T(MxM), которая указывает степень, в которой один пользователь доверяет другому. Затем с помощью SVD найдите две матрицы более низкого ранга p (KxM) (матрица признаков доверенного лица) и w (KxM) (матрица признаков доверенного лица), чтобы узнать доверительные отношения. Матрица p является общей для R и T (явное доверительное обучение). Матрицы p и w можно узнать, минимизировав функцию потерь, аналогичную приведенному ранее уравнению:
- Окончательный прогнозируемый рейтинг с неявным рейтингом и информацией о доверии может быть задан уравнением ниже. Дополнительный термин представляет скрытые функции пользователя с точки зрения доверительных отношений с другими пользователями. Таким образом, предмет, получивший высокую оценку ее доверенных пользователей, получит более высокие оценки.
- Модель поощряет большие отклонения от базовых оценок для пользователей, которые поставили больше оценок или лучше общались в социальных сетях, и придерживается базовых прогнозов для пользователей, которые меньше взаимодействуют с системой. Корен (2008) заметил, что модель работала лучше, когда это поведение было немного смягчено. Следовательно, члены делятся на количество элементов для пользователя u в матрицах I и T.
- Окончательная функция потерь представляет собой унифицированную рекомендательную модель, учитывающую оба типа информации. Добавлено несколько дополнительных условий регуляризации, чтобы избежать дальнейшего переобучения.
Набор данных и его анализ
- Модель использует для анализа 4 реальных набора данных, а именно Epinions, FilmTrust, Flixster и Ciao.
- Данные о доверии даже разрежены, чем данные рейтинга во всех наборах данных, кроме Ciao.
- Авторы заметили, что даже неактивные пользователи (с точки зрения рейтинга) по-прежнему были социально связаны с другими пользователями, что помогло решить проблему холодного запуска.
- Существует высокая корреляция между рейтингом пользователя и средним рейтингом его социальных соседей.
Показатели оценки
- Для обучения и тестирования используется пятикратная перекрестная проверка.
- RMSE и MAE используются в качестве показателей оценки ошибок.
- Два представления набора данных создаются для тестирования. Один из них учитывает все оценки (представление «Все»), а другой нацелен на данные «холодного запуска» (особенно пользователей, которые оценили менее пяти элементов) (представление «Холодный запуск»).
Результаты
- Авторы сравнивают свои результаты с базовыми моделями, современными моделями только для оценки и некоторыми последними моделями, которые также включают данные о доверии.
- Улучшает точность других моделей, за исключением расчета метрики MAE для набора данных Epinions.
Заключение/Мысли
- Представляет значительное улучшение в моделировании информации о доверии и усиливает важность неявных данных.
- Модель SVD++, используемая в этой статье, является второй лучшей моделью с точки зрения производительности, упомянутой в исходной статье. Лучшей моделью была гибридная, в которой используется смесь латентного фактора и модели соседства. Было бы интересно увидеть результаты в этом случае.
- Было бы интересно использовать эти конкретные данные и доверять данным в целом в машинах факторизации (сочетающих преимущества SVM с моделями факторизации), которые специализируются на работе с разреженными данными.
- Моделирование доверия к рекомендательной задаче ранжирования элементов вместо предсказания рейтинга (это было сделано авторами в 2016 году).
Ссылки
- Джамали М. и Эстер М. 2010. Метод матричной факторизации с распространением доверия для рекомендаций в социальных сетях. В материалах 4-й конференции ACM по системам рекомендаций (RecSys), 135–142.
- Корен, Ю. 2008. Факторизация встречает окрестности: многогранная модель совместной фильтрации. В материалах 14-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных (KDD), 426–434.
- Ма, Х .; Ян, Х .; Лю, М .; и Кинг, И. 2008. SoRec: социальная рекомендация с использованием вероятностной матричной факторизации. В материалах 31-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска (SIGIR), 931–940.
- Ма, Х .; Чжоу, Д .; Лю, К.; Лю, М. Р.; и Кинг, И. 2011. Рекомендательные системы с социальной регуляризацией. В материалах 4-й Международной конференции ACM по поиску в Интернете и интеллектуальному анализу данных (WSDM), 287–296.
- Ма, Х .; Кинг, И.; и Лю, М. 2009. Учимся рекомендовать ансамбль социального доверия. В материалах 32-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска (SIGIR), 203–210.
- Салахутдинов Р. и Мних А. 2008. Вероятностная матричная факторизация. В Достижениях в области систем обработки нейронной информации (NIPS), том 20, 1257–1264.
- Ян, Б .; Лей, Ю .; Лю, Д.; и Лю, Дж. 2013. Социальная совместная фильтрация по доверию. В материалах 23-й Международной объединенной конференции по искусственному интеллекту (IJCAI), 2747–2753.
- Штеффен Рендл (2010): Машины факторизации, в материалах 10-й Международной конференции IEEE по интеллектуальному анализу данных (ICDM 2010), Сидней, Австралия.