Это краткая статья к лекции профессора Паоло Россо на семинаре ACM RecSys 2021; если вы хотите посмотреть оригинальное видео, вот ссылка. В этой статье мы рассмотрим исследования профессора Россо, упомянутые в лекции, тему за темой.

Дезинформация и дезинформация

Как правило, существует два разных типа ложной информации: дезинформация и дезинформация. Дезинформация — это ложная или неверная информация, обычно возникающая из слухов, розыгрышей или неправильного понимания определенной информации. Дезинформация — это ложная информация, преднамеренно созданная для того, чтобы ввести других в заблуждение для достижения определенной цели. По сравнению с дезинформацией, дезинформация часто с меньшей вероятностью отделяется от реальных сообщений. Согласно опросу американцев, только 54 процента правильно отличают дезинформацию от настоящих новостей. А дезинформация крайне вредна для нашего общества; особенно когда разразилась пандемия, дезинформация заставила тысячи людей неправильно относиться к себе.

В 2011 году профессор Россо провел исследование, посвященное оценке достоверности твитов, собранных Amazon Mechanical Turk (AMT) на актуальные темы. Выбрав некоторые ключевые характеристики, такие как глубина сообщения ретвита, наличие специальных символов и длина твита, модель дерева решений может получить 0,86 балла F-1, что в то время было весьма впечатляющим.

В 2019 году профессор Россо участвовал в аналогичном исследовательском проекте под названием EmoCred, в котором используется долговременная кратковременная память (LSTM) вместе с моделью распознавания слов с эмоциями. На рисунке ниже показана структура модели EmoCred. В эксперименте EmoCred превзошел некоторые результаты предыдущего эксперимента, набрав 61,1% точности при оценке правдивости серии твитов, предоставленных известным сайтом проверки фактов Politifact.

В 2020 году была опубликована лучшая модель – Эмоционально насыщенная сеть (EIN). он имеет структуру модели, аналогичную EmoCred, и просто добавляет уровень внимания к LSTM и больший набор данных сигналов эмоций. В результате EIN превзошла предыдущую модель и достигла 64,82-процентной точности классификации твитов.

Новая современная модель FakeFlow, показанная на рисунке ниже, представляет собой расширенную версию предыдущей модели. Он не только использует сверточные слои для создания сегментов из встраивания слов, но также использует эти сегменты для извлечения следующих категорий признаков: эмоции, чувства, мораль, образность и гиперболичность, предоставляя списки слов для каждой категории и используя частоту терминов ( TF) в качестве веса для создания входных данных для двунаправленного GRU. Затем FakeFlow использует внутренний продукт и среднее значение для сбора выходных данных двух разных моделей. FakeFlow имеет оценку F-1 0,97 в наборе данных MultiSourceFake, превосходя все другие модели, включая некоторые модели на основе MLM, включая BERT.

Мультимодальное обнаружение фейковых новостей

Профессор Россо также разработал мультимодальную модель для обнаружения фейковых новостей в 2020 году. Эта модель включает в себя множество различных аспектов обнаружения фейковых новостей, включая анализ настроений, генерацию встраивания слов, теги изображений, локальное двоичное построение и сходство текста и изображения. Подробная структура модели показана ниже. Для текста эта модель использует аналогичный процесс для создания вложений слов и анализа тональности. Для части изображения эта модель извлекает 10 лучших тегов из разных моделей CNN и использует эти теги для создания вложений слов. Эта модель также использует локальные двоичные шаблоны, чтобы увидеть, есть ли в изображении некоторые часто встречающиеся поддельные шаблоны изображений. И последнее, но не менее важное: он вычисляет сходство встраивания слова в текст новости и встраивания слова в тег изображения. С этими пятью различными аспектами эта модель проливает свет на более сложные способы обнаружения фейковых новостей и, возможно, в будущем сможет обнаруживать более тонкие фейковые новости или расистские мемы.

Распространение фейковых новостей и заговоров

В 2020 и 2021 годах профессор Россо анализирует серию данных, чтобы найти закономерности распространения фейковых новостей / заговоров. Среди обнаруженных фактов: «у распространителей меньше подписчиков и более новая учетная запись», «распространители используют больше бранных слов» и «распространители больше заботятся о религии, в то время как обычные пользователи больше заботятся о работе, отдыхе, деньгах, жизни и смерти. ». С помощью этих идей профессор Россо успешно помог модели обнаружения распространителей заговора стать более надежной, добавив эти идеи в модель вручную.

Обнаружение женоненавистничества

Женоненавистничество — это тип дискриминации, ненависти или предрассудков в отношении женщин, обычно проявляемый мужчинами. В 2018 и 2019 годах профессор Россо также руководил командой по задаче о ненависти к иммигрантам и женоненавистничеству в текстах. Эта задача содержит два поднаправления: обнаружение ненависти и классификация целей. Хотя он, возможно, не сделал существенного прорыва в этой задаче, профессору Россо и его команде все же удалось показать некоторые многообещающие результаты в этой задаче. Лектор также упомянул, что следующим шагом в выявлении женоненавистничества могло бы стать сочетание текущей модели и мультимодальной модели, упомянутой в предыдущем абзаце. Кроме того, образование также играет важную роль в снижении женоненавистничества.

В этой статье мы рассмотрели обнаружение фейковых новостей, обнаружение распространения заговора и обнаружение женоненавистничества, проведенное профессором Россо. Это демонстрирует, как мы можем бороться с дезинформацией и как эффективно ее обнаруживать. Для меня профессор Россо — один из лучших ученых в области обнаружения фейковых новостей и смежных областях. Если вы хотите увидеть больше его исследований, вот его личный сайт.