Изучение распространения фейковых новостей в данных социальных сетей

Влияние массового распространения дезинформации в социальных сетях стало очевидным благодаря Трампизму. «Фейковые новости» динамично сочетают вымысел с разумом, чтобы привести, казалось бы, убедительный аргумент, вызывая определенные эмоции, подтверждая демографические предубеждения и сохраняя определенные неуверенности. Это обманчивая манипуляция, апеллирующая к идеалам. Эти идеи могут создавать впечатление правдоподобности, но они могут быть опровергнуты логическим и критическим анализом.

62% взрослых американцев получают новости в основном из социальных сетей, которые являются основной платформой для распространения дезинформации. Социальные сети можно представить в виде графа, состоящего из узлов, представляющих людей/страницы, и ребер, обозначающих параметры соединения.

Подход машинного обучения (ML), TraceMiner, предлагается классифицировать сообщения как поддельные или настоящие путем изучения их распространения в социальной сети. Данные многомерны и разрежены — связи между людьми сложны, и лишь небольшая часть людей распространяет сообщения. Эта проблема решается с учетом близости узлов и социальных аспектов.

Граф социальной сети можно использовать для создания репрезентативных векторов встраивания, которые хорошо справляются с задачами классификации — классифицируя как поддельные или настоящие и тому подобное. Близость или степень связи являются важными характеристиками при представлении социальных сетей. Близости первого и второго порядка представляют друзей и друзей друзей соответственно, если взять Facebook в качестве примера. Это указывает на то, что пользователи, связанные друг с другом, имеют схожие интересы, как и пользователи, имеющие общих друзей. Хотя это может быть не всегда так, структуры сообщества формируют важные особенности модели ML.

Поскольку одно и то же дезинформационное сообщение может распространяться по краям различных несвязанных подпоследовательностей в социальной сети, предлагается LSTM-RNN (рекуррентные нейронные сети с долговременной временной памятью) для захвата отношений между удаленными подсообществами. Эти нейронные сети представляют собой вычислительные конструкции, смоделированные по образцу человеческого мозга, для понимания последовательных данных в больших масштабах и оценки сообщений.

Близость между узлами фиксируется в случайных блужданиях внутри графа, где блуждание представляет собой выборку случайного обхода между двумя узлами. Согласно алгоритму DeepWalk, узлы, выбранные вместе, сохраняют свое сходство при кодировании в пространстве низкой размерности. Это кодирование помогает уменьшить разреженность данных при использовании пользователей социальных сетей в качестве функций.

Затем представляются пользовательские последовательности распространения информации. При этом используется последовательность распространения сообщения социальных сетей в сети. Ранее упомянутые LSTM-RNN моделируют эти последовательности и, следовательно, помогают в классификации путей распространения.

Важным открытием является то, что распространители информации можно использовать для прогнозирования категорий сообщений. Этот алгоритм хорошо работает, чтобы классифицировать сообщения как поддельные или настоящие, даже при отсутствии информации о содержании, потому что он использует изученные сетевые структуры. Это полезно для обнаружения фальшивых новостей на ранних этапах их распространения. TraceMiner,алгоритм, классифицирует сообщение как поддельное или настоящее с точностью ~85%. Это превосходит другие алгоритмы классификации на основе контента.

Дезинформация («фейковые новости») с большей вероятностью будет распространяться из аналогичных источников в аналогичной последовательности среди аналогичных людей. TraceMiner извлекает выгоду из этой идеи, учитывая последовательности распространения. Содержание фейковых новостей менее описательно, и их преднамеренные распространители манипулируют содержанием, чтобы сделать его более похожим на информацию, не являющуюся слухами. TraceMiner решает эти проблемы, будучи в значительной степени независимым от контента.

Моя статья представляет собой обобщение этой статьи.

Изучение распространения фейковых новостей в данных социальных сетей

Вопросы по теме