Г. Го, Дж. Чжан и Н. Йорк-Смит

Материалы AAAI 2015, 2015 г.

Я подготовил этот раздаточный материал на одной странице как часть своей презентации для курса «Доверие и онлайн-социальные сети» (CS-886) в Университете Ватерлоо.

Введение в рекомендательные системы (RS)

  • RS предоставляет пользователям персональные рекомендации в зависимости от их вкуса.
  • Конкурс Netflix, начавшийся в октябре 2006 года, стимулировал исследования в этой области.
  • Один из наиболее успешных методов в RS называется Collaborative Filtering (CF): он анализирует прошлые транзакции, чтобы сформулировать связи между пользователями и элементами.
  • Модели учатся на явных, неявных и вспомогательных данных.

Методы CF

  • На основе памяти: вычисление взаимосвязей между похожими пользователями и/или элементами. Бывший. метод соседства.
  • На основе модели: пытается смоделировать каждого пользователя и/или элемент и их взаимодействия. Бывший. Скрытые факторные модели, байесовские модели, глубокое обучение.
  • Гибрид: использует преимущества обоих. Например, СВД++.

Матричная факторизация (SVD)

  • Матрица R представляет собой матрицу пользователей и элементов с оценками, которые пользователи поставили определенным элементам. Как и следовало ожидать, большинство значений в этой матрице отсутствуют, поскольку средний пользователь оценивает очень небольшой процент всех элементов. Основная цель матричной факторизации состоит в том, чтобы заменить эти пропущенные значения.

  • Суть состоит в том, чтобы найти две матрицы низкого ранга (SVD): матрица пользовательских характеристик (p) (KxM) и матрица характеристик элементов (q) (KxN), которые могут регенерировать R (MxN). K обозначает размеры скрытого векторного пространства.

  • Изучите матрицу характеристик пользователя и элемента, минимизируя следующую функцию потерь с помощью SGD, ALS и т. д. Регуляризация L2 применяется к функции потерь, чтобы уменьшить переоснащение.

SVD++:Koren (2008) заметил, что включение неявной обратной связи с пользователем в модель может привести к гораздо более точному прогнозу. Они предложили следующее правило предсказания:

  • I содержит набор элементов, по которым была получена неявная обратная связь для пользователя u. Дополнительный термин (добавленный к p) представляет скрытые функции пользователя с точки зрения элементов, которые пользователь ранее оценил. Интуиция заключается в том, что ранее оцененные пользователем элементы, которые, как известно, являются прогнозирующими для текущего элемента, должны учитываться при прогнозировании.

Доверьтесь RS

  • Информация о доверии хорошо дополняет рейтинговую информацию.
  • Используется в основном для устранения некоторых известных проблем, таких как холодный запуск и разреженность данных.
  • Даже лучшая производительность, о которой сообщалось в последней работе до этого, уступала другим современным моделям только для рейтинга.

Обзор литературы по моделям, основанным на доверии

  • Все более ранние модели использовали только явные данные о доверии.
  • SoRec: общая матрица пользовательских характеристик учитывает рейтинги и доверие. (2008)
  • RSTE: Линейно сочетает базовую матричную факторизацию и модель соседства на основе доверия. (2009)
  • SoReg: модель MF, в которой в качестве условия регуляризации используется тот факт, что скрытый вектор пользователя должен быть ближе к среднему значению его доверенных соседей. (2011)
  • SocialMF: построен на основе SoRec; использует вклады доверенных пользователей для формирования латентных векторов активного пользователя вместо предсказания отсутствующих оценок. (2010)
  • TrustMF: использует информацию как от пользователей, которым доверяет пользователь, так и от тех, кто доверяет пользователю, для прогнозирования оценок активного пользователя. (2013)

TrustSVD: включает явные, а также неявные данные социального доверия в модель SVD++.

  • Мы можем обозначить информацию о доверии с помощью матрицы T(MxM), которая указывает степень, в которой один пользователь доверяет другому. Затем с помощью SVD найдите две матрицы более низкого ранга p (KxM) (матрица признаков доверенного лица) и w (KxM) (матрица признаков доверенного лица), чтобы узнать доверительные отношения. Матрица p является общей для R и T (явное доверительное обучение). Матрицы p и w можно узнать, минимизировав функцию потерь, аналогичную приведенному ранее уравнению:

  • Окончательный прогнозируемый рейтинг с неявным рейтингом и информацией о доверии может быть задан уравнением ниже. Дополнительный термин представляет скрытые функции пользователя с точки зрения доверительных отношений с другими пользователями. Таким образом, предмет, получивший высокую оценку ее доверенных пользователей, получит более высокие оценки.

  • Модель поощряет большие отклонения от базовых оценок для пользователей, которые поставили больше оценок или лучше общались в социальных сетях, и придерживается базовых прогнозов для пользователей, которые меньше взаимодействуют с системой. Корен (2008) заметил, что модель работала лучше, когда это поведение было немного смягчено. Следовательно, члены делятся на количество элементов для пользователя u в матрицах I и T.
  • Окончательная функция потерь представляет собой унифицированную рекомендательную модель, учитывающую оба типа информации. Добавлено несколько дополнительных условий регуляризации, чтобы избежать дальнейшего переобучения.

Набор данных и его анализ

  • Модель использует для анализа 4 реальных набора данных, а именно Epinions, FilmTrust, Flixster и Ciao.
  • Данные о доверии даже разрежены, чем данные рейтинга во всех наборах данных, кроме Ciao.
  • Авторы заметили, что даже неактивные пользователи (с точки зрения рейтинга) по-прежнему были социально связаны с другими пользователями, что помогло решить проблему холодного запуска.
  • Существует высокая корреляция между рейтингом пользователя и средним рейтингом его социальных соседей.

Показатели оценки

  • Для обучения и тестирования используется пятикратная перекрестная проверка.
  • RMSE и MAE используются в качестве показателей оценки ошибок.
  • Два представления набора данных создаются для тестирования. Один из них учитывает все оценки (представление «Все»), а другой нацелен на данные «холодного запуска» (особенно пользователей, которые оценили менее пяти элементов) (представление «Холодный запуск»).

Результаты

  • Авторы сравнивают свои результаты с базовыми моделями, современными моделями только для оценки и некоторыми последними моделями, которые также включают данные о доверии.
  • Улучшает точность других моделей, за исключением расчета метрики MAE для набора данных Epinions.

Заключение/Мысли

  • Представляет значительное улучшение в моделировании информации о доверии и усиливает важность неявных данных.
  • Модель SVD++, используемая в этой статье, является второй лучшей моделью с точки зрения производительности, упомянутой в исходной статье. Лучшей моделью была гибридная, в которой используется смесь латентного фактора и модели соседства. Было бы интересно увидеть результаты в этом случае.
  • Было бы интересно использовать эти конкретные данные и доверять данным в целом в машинах факторизации (сочетающих преимущества SVM с моделями факторизации), которые специализируются на работе с разреженными данными.
  • Моделирование доверия к рекомендательной задаче ранжирования элементов вместо предсказания рейтинга (это было сделано авторами в 2016 году).

Ссылки

  • Джамали М. и Эстер М. 2010. Метод матричной факторизации с распространением доверия для рекомендаций в социальных сетях. В материалах 4-й конференции ACM по системам рекомендаций (RecSys), 135–142.
  • Корен, Ю. 2008. Факторизация встречает окрестности: многогранная модель совместной фильтрации. В материалах 14-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных (KDD), 426–434.
  • Ма, Х .; Ян, Х .; Лю, М .; и Кинг, И. 2008. SoRec: социальная рекомендация с использованием вероятностной матричной факторизации. В материалах 31-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска (SIGIR), 931–940.
  • Ма, Х .; Чжоу, Д .; Лю, К.; Лю, М. Р.; и Кинг, И. 2011. Рекомендательные системы с социальной регуляризацией. В материалах 4-й Международной конференции ACM по поиску в Интернете и интеллектуальному анализу данных (WSDM), 287–296.
  • Ма, Х .; Кинг, И.; и Лю, М. 2009. Учимся рекомендовать ансамбль социального доверия. В материалах 32-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска (SIGIR), 203–210.
  • Салахутдинов Р. и Мних А. 2008. Вероятностная матричная факторизация. В Достижениях в области систем обработки нейронной информации (NIPS), том 20, 1257–1264.
  • Ян, Б .; Лей, Ю .; Лю, Д.; и Лю, Дж. 2013. Социальная совместная фильтрация по доверию. В материалах 23-й Международной объединенной конференции по искусственному интеллекту (IJCAI), 2747–2753.
  • Штеффен Рендл (2010): Машины факторизации, в материалах 10-й Международной конференции IEEE по интеллектуальному анализу данных (ICDM 2010), Сидней, Австралия.