Выявление фальшивых обзоров продуктов с помощью машинного обучения

Спам мнений - это ситуация, которая усугубляет ситуацию, например, CBS News сообщает, что 52% обзоров продуктов, размещенных на Walmart.com, являются «недостоверными или ненадежными», в то время как по крайней мере 30% обзоров, размещенных на Amazon, являются поддельными. Проблема выявления спама, распространяющего мнения, остается открытой темой, несмотря на то, что несколько исследователей уже обращались к ней.

Что заставляет компании делать ложные обзоры продуктов? Основной движущей силой является опережение конкурентов за позиционирование своего продукта или услуги, чтобы повлиять на общественность и организации с целью совершения покупки, тем самым увеличивая их продажи. Мошенничество заключается в публикации ложных негативных отзывов и несправедливых оценок продукции конкурентов.

Известно, что «Amazon Mechanical Turk», интернет-рынок краудсорсинга, позволяющий запрашивающим (юридическим или физическим лицам) координировать человеческий труд для выполнения задачи, использовался для краудсорсинга фальшивых отзывов для сети отелей. Учитывая, что эта проблема приобрела угрожающие масштабы, Yelp.com, служба бизнес-каталогов, публикующая краудсорсинговые обзоры о компаниях, начала спецоперацию, чтобы разоблачить те компании, которые покупают фальшивые отзывы.

Я расскажу о методе, который Mukherjee et al. присутствуют в своей статье по обнаружению спама в отзывах о товарах. Они назвали свою модель Модель спамности авторов (ASM). Он основан на обучении без учителя, которое моделирует спам как скрытый, что вкратце означает, что переменные модели скрыты. Это также основа байесовского вывода. Цель модели - сгруппировать категоризацию этого латентного распределения населения по спамерам, а не спамерам.

Обратите внимание, что когда я говорю о продуктах, я буду включать также услуги.

Как мы можем определить, что отзыв может быть поддельным? Для разработки своей модели авторы определяют девять переменных как наблюдаемые особенности, первые пять они классифицируют как авторские особенности, которые имеют значения в интервале [0, 1] (обозначая бета-распределение ), где значение, близкое к 0 или 1, означает отсутствие спама или рассылки спама соответственно. С другой стороны, переменные с 5 по 9 представляют функции обзора и принимают двоичное значение: 0 для отсутствия спама и 1 для рассылки спама (что означает распределение Бернулли):

  1. Схожесть содержания (CS). Спамеры склонны копировать обзоры сопоставимых продуктов. Косинусное сходство используется для определения схожести содержания в этих обзорах.
  2. Максимальное количество отзывов (MNR). Необычное поведение, связанное с публикацией нескольких отзывов одним и тем же автором за один день, может быть признаком рассылки спама.
  3. Срывистость обзора (BST). Относится к частоте (короткой), с которой автор публикует рецензию. Этот автор обычно является новым участником сайта. Выполнение этого условия может означать склонность к вводящим в заблуждение обзорам.
  4. Доля первых рецензентов (RFR). Этот показатель количественно определяет тот факт, что ранние обзоры влияют на продажи недавно выпущенных продуктов.
  5. Повторяющиеся / почти повторяющиеся отзывы (DUP). Идентичные или почти идентичные отзывы могут указывать на рассылку спама. Эта функция аналогична CS, но в данном случае относится к функциям обзора.
  6. Экстремальный рейтинг (EXT). Чтобы получить максимальную или минимальную пользу от обзора, спамеры обычно отмечают продукт одной или пятью звездочками.
  7. Отклонение рейтинга (DEV). Спамеры попытаются изменить среднюю оценку отзывов, разместив свои отзывы. Эти типы обзоров идентифицируются, когда это количественное отклонение превышает пороговое значение.
  8. Ранние временные рамки (ETF). Эта функция показывает, как рано была сделана проверка. Причина в том, что спамеры, скорее всего, обратятся к нему раньше, ближе к запуску продукта, чтобы добиться наибольшего воздействия.
  9. Злоупотребление рейтингом (RA). Означает, что один и тот же товар оценивается звездочкой несколько раз.

Как работает ASM? Чтобы проиллюстрировать модель, я упростил ее функционирование в следующей схеме (см. Рисунки 1-A и 1-B), математическое представление см. В статье.

ASM начинает с рассмотрения всех обзоров всех авторов, где эти обзоры организованы по функциям, которые мы обсуждали. Каждая сфера представляет собой наблюдаемую переменную (то есть особенность). После того, как функции собраны (см. Рис. 1-A, узел A), они обрабатываются моделью и изучают «распределения скрытого поведения для спама, а не спама» (Murkherjee et al.). Следовательно, ASM решает проблему кластеризации (K = 2).

Спамность моделируется так же латентно, как функции ASM в байесовском контексте. Это генеративный процесс, потому что он испускает девять функций с их вероятностью рассылки спама.

Для выполнения вывода модель использует « свернутую выборку Гиббса » (CGS), которая представляет метод аппроксимации апостериорного распределения вероятностей. CGS принадлежит к семейству алгоритмов Цепи Маркова Монте-Карло.

После того, как функции ранжирования были выведены, они обрабатываются с использованием контролируемой техники Learning to Rank, которая в основном берет рейтинги, полученные ASM, и генерирует единую агрегированную функцию ранжирования (см. Узел на рис. 1-A C).

На мой взгляд, в этой статье представлен метод, который может значительно улучшить обнаружение спамеров в обзорах продуктов. Это новаторский метод, поскольку представляет собой неконтролируемый метод обнаружения фальшивых отзывов. Авторы утверждают, что достигли более высокого уровня точности по сравнению с сильными конкурентами. Я считаю, что количество рассылок со стороны общественного мнения начнет уменьшаться по мере того, как все больше компаний, предоставляющих такую ​​информацию, начнут внедрять методы машинного обучения, такие как ASM, в то же время потребители должны быть скептически настроены и получать информацию с помощью сайтов, которые фильтруют поддельные отзывы.

Выявление спамеров мнений по поведенческим следам

A Mukherjee, A Kumar, B Liu, J Wang, M Hsu… - Proceedings of the 19th…, 2013 - dl.acm.org

Выборка Гиббса для непосвященных

P Resnik, E Hardisty - 2010

Байесовский вывод в статистическом анализе

GEP Box, GC Tiao - 2011 - books.google.com

Ускорение калибровки модели скрытого распределения Дирихле для улучшения…

Автор: Я. А. Лопес - 2017



— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — -

Уважаемый читатель, мне интересно узнать от вас:

  1. Когда вы покупаете в Интернете, чувствуете ли вы, что на ваше решение влияет представленный местный обзор? Или в дополнение к одному или нескольким внешним обзорам?
  2. Какому сайту с обзором продуктов вы доверяете больше, если пользуетесь им?
  3. Как вы думаете, что может быть решением этой проблемы, которая растет угрожающими темпами?

Спасибо за участие, вы можете оставить комментарий, чтобы ответить.