Фейковые новости о COVID-19

Введение:

Электронные средства связи помогли устранить временные и дистанционные барьеры для обмена и трансляции информации. Однако, несмотря на все свои преимущества, более быстрые средства связи также привели к широкому распространению дезинформации. В настоящее время мир переживает смертельную пандемию COVID-19, и фейковые новости о болезни, ее способах лечения, профилактике и причинах широко распространяются среди миллионов людей. Распространение фейковых новостей и дезинформации в такие непростые времена может иметь серьезные последствия, ведущие к повсеместной панике и усилению угрозы самой пандемии.

Согласно недавнему отчету BBC за август 2020 года, в течение первых трех месяцев этого года, возможно, умерло не менее 800 человек во всем мире из-за дезинформации, связанной с коронавирусом. Поэтому крайне важно ограничить распространение фейковых новостей и обеспечить распространение точной информации среди населения.

В этом блоге мы исследуем проблему обнаружения фейковых новостей, связанных с COVID-19, и описываем наш подход к ее решению с помощью обработки естественного языка. Это основано на нашей недавней статье Модель двухступенчатого преобразователя для обнаружения фальшивых новостей COVID-19 и проверки фактов, принятой на NLP for Internet Freedom Workshop, совместно с COLING2020 - http://arxiv.org/abs/2011.13253.

Наше решение НЛП:

Мы создали актуальную систему обнаружения фейковых новостей, способную проверять заявления, а также давать объяснения в режиме реального времени. Разработка решения для такой задачи включает создание базы данных фактических объяснений, которая составляет нашу базу знаний, которая служит основанием для истины для любого конкретного утверждения. Мы вычислили связь между любым заданным утверждением и объяснением, чтобы проверить, является ли утверждение истинным или нет. Запрос пар претензия-объяснение для каждого объяснения в нашей базе знаний требует больших вычислительных затрат и времени, поэтому мы предлагаем сгенерировать набор возможных объяснений, которые контекстуально похожи на претензию. Мы достигли этого, используя модель, обученную с использованием релевантных и нерелевантных пар претензий и объяснений, и используя метрику сходства между ними, чтобы сопоставить их.

Предыдущие исследования по обнаружению фейковых новостей :

Предыдущая работа по обнаружению фальшивых новостей была в первую очередь сосредоточена на оценке взаимосвязи, измеряемой с помощью задачи текстового вывода между заголовком и телом статьи. Исследователи изучили использование простых моделей классификаторов с функциями TF-IDF и метрикой косинусного сходства для классификации фейковых новостей. Несколько базовых показателей с такими методами существует на стандартных наборах данных, таких как FNC-1 и FEVER.

Предварительно обученные модели на основе трансформаторов достигли самых современных результатов в нескольких подзадачах НЛП, простота их тонкой настройки делает их адаптируемыми к новым задачам. В дальнейшей связанной работе авторы предложили модель, основанную на архитектуре BERT, для обнаружения фейковых новостей путем анализа контекстной связи между заголовком и основным текстом новости. Они еще больше повысили производительность своих моделей за счет предварительного обучения на предметных новостях и статьях.

Использование социальных сетей также широко изучается для предотвращения дезинформации о Covid-19. В связанной с этим работе авторы разработали индекс риска Infodemic (IRI) после анализа сообщений в Twitter на разных языках и расчета скорости, с которой конкретный пользователь из местности сталкивается с ненадежными сообщениями от разных классов пользователей, таких как проверенные люди, непроверенные люди, проверенные боты и непроверенные боты.

Но ни одна из этих упомянутых работ не решает проблему дезинформации, аргументируя данное фальшивое заявление объяснением.

Наборы данных:

Использование существующего набора дезинформационных данных не будет служить надежной базой знаний для обучения и оценки моделей из-за недавнего и необычного характера, то есть словаря, используемого для описания болезни и терминов, связанных с пандемией COVID-19.

Поэтому было важно создавать реальные и своевременные наборы данных, чтобы обеспечить точную и последовательную оценку методов.

Чтобы преодолеть этот недостаток, мы вручную собрали набор данных, относящийся к COVID-19. Предлагаемый нами набор данных состоит из 5500 пар претензий и объяснений. В сети есть множество источников, которые регулярно выявляют и разоблачают фейковые новости о COVID-19. Мы собрали данные с Poynter, сайта проверки фактов, который собирает фейковые новости и опровергает или проверяет их факты с помощью подтверждающих статей из более чем 70 стран.

Для каждой проверки фактов мы собирали из этой базы данных только «утверждение» и соответствующее «объяснение», которые были оценены как «ложные» или «вводящие в заблуждение». Таким образом, мы собрали около 5500 пар ложных утверждений и объяснений. Кроме того, мы вручную перефразировали некоторые из этих ложных утверждений, чтобы сформировать истинное утверждение, как те, которые совпадают с объяснением, чтобы создать равное соотношение пар истинное утверждение и объяснение.

Модель Архитектура:

Архитектура состоит из двухэтапной модели, мы будем называть первую модель «моделью A», а вторую модель - «моделью B». Целью модели A является получение кандидатом «истинных фактов» или объяснений данного утверждения, которые затем оцениваются на предмет наличия с помощью модели B.

Модель A обучается всем парам претензий и объяснений, поскольку их у нас намного больше, и задача модели A состоит в том, чтобы выбрать претензии-кандидаты для данного объяснения. Модель A обучается задаче прогнозирования следующего предложения (NSP).

В ходе наших экспериментов мы обнаружили, что на этой обученной модели, если мы сгенерируем вложения для одного предложения (либо утверждения, либо объяснения по отдельности) и сравним совпадающие [утверждения, объяснения] вложения, используя метрику косинусного сходства, есть различие в распределении оценок сходства между связанными и несвязанными парами [утверждение, объяснение].

Поэтому для более быстрой работы в режиме, близком к реальному времени, мы заранее кэшируем вложения для всех наших объяснений (базы знаний) и вычисляем косинусное сходство между утверждением и кешированными встраиваемыми вложениями объяснений. Мы получаем наиболее важные объяснения для любого конкретного утверждения, превышающего определенный порог схожести предложений, поскольку для данного утверждения может быть несколько объяснений.

Вторая часть конвейера - это определение правдивости данного утверждения. Модель A выбирает возможные объяснения, в то время как Модель B используется для проверки того, соответствует ли данное утверждение нашему набору возможных объяснений или нет. Для обучения модели B мы используем меньшее подмножество пар «ложное утверждение» и «объяснение» из нашего исходного набора данных и перекрестно проверяем каждый образец с «истинным утверждением» или, другими словами, утверждениями, которые соответствуют фактическому объяснению.

Однако этих небольших аннотированных данных недостаточно для эффективного обучения модели. Таким образом, параметры модели A, которая была обучена на гораздо большем наборе данных, использовались в качестве начальных параметров для модели B, а затем уточнялись с использованием нашего набора данных с перекрестной проверкой. Модель B также обучена задаче классификации последовательностей. По сути, Модель B вычисляет следствие между своим входным заявлением и парами объяснений.

Мы обучили и оценили как Модель A, так и Модель B, используя несколько подходов, основанных на классических методах НЛП, а также на более сложных предварительно обученных моделях Transformer. Поток трубопровода Модель A + Модель B показан на рисунке выше.

Модели на основе трансформатора:

Мы обучили и оценили три предварительно обученных модели на основе Transformer для Модели A и Модели B, используя описанную ранее стратегию обучения. Поскольку наша цель заключалась в том, чтобы обеспечить эффективное развертывание предлагаемого конвейера в сценарии, близком к реальному времени, мы ограничили наши эксперименты моделями, которые можно эффективно развернуть с помощью недорогих вычислений. Мы выбрали следующие три модели - BERT (базовая), ALBERT и MobileBERT.

Модель A была обучена на 5000 парах претензия-объяснение по задаче классификации последовательностей для оптимизации перекрестных потерь энтропии softmax. Затем эта обученная модель была проверена на тестовом наборе, состоящем из 1000 невидимых пар претензий и объяснений. Структура обучающих данных здесь выглядит так.

[претензия, соответствующее объяснение, 1], [претензия, неуместное объяснение, 0]

Модель B была обучена на меньшем подмножестве 800 перекрестно проверенных данных [утверждение, объяснение, метка] в той же задаче классификации последовательностей, где метка была назначена в зависимости от того, соответствует ли утверждение объяснению - 1 или нет - 0. Это было подтверждено на 200 невидимых точках данных. В качестве функции потерь использовалась кросс-энтропия softmax. Структура обучающих данных здесь выглядит так:

[верное утверждение, соответствующее объяснение, 1] [ложное утверждение, соответствующее объяснение, 0]

Для определения основы мы реализуем классические подходы НЛП в нашем сценарии использования и сравниваем эти результаты с моделями на основе преобразователей. Для классических реализуем архитектуры GLoVe и TF-IDF.

Метрики оценки:

Для оценки производительности модели конвейера в целом мы сначала оцениваем производительность модели A с точки зрения ее способности извлекать соответствующие объяснения. Для этого мы используем Средний реципрокный рейтинг (MRR) и Среднее количество отзывов @ 10, то есть долю утверждений, для которых релевантное объяснение присутствовало в топ-10 наиболее контекстных объяснений по косинусному сходству и их средний обратный ранг.

После того, как Модель A получила соответствующие объяснения, мы оцениваем эффективность Модели B, вычисляя достоверность утверждения. Здесь мы использовали только те объяснения, которые превышают эмпирически определенный порог косинусного сходства между утверждением запроса и объяснением. В ходе наших экспериментов мы обнаружили, что порог среднего стандартного отклонения косинусного сходства по данным проверки хорошо работает для выбора соответствующих объяснений. Для оценки точности мы берем среднее значение вероятностей выхода для каждой претензии, объясненияᵢ.

Таблица 1 показывает, что модели на основе трансформаторов значительно лучше классических моделей НЛП. Интересным наблюдением было то, что одни модели лучше справляются с поиском релевантных объяснений, в то время как другие лучше классифицируют. Мы обнаружили, что комбинация наиболее эффективной модели A (BERT) и самой эффективной модели B (ALBERT) дала наивысшие MRR, отзыв @ 10 и точность на тестовом наборе для проверки фактов.

Таблица 2 показывает использование памяти и задержки реализованных моделей. Потребление памяти и задержка на запрос в классических моделях NLP были довольно низкими по сравнению с моделями на основе Transformer.

Это ожидается из-за меньшего размера параметров моделей TF-IDF и GloVe. Среди моделей на базе Transformer у MobileBERT была наименьшая задержка на запрос, как и ожидалось, в то время как ALBERT потреблял наименьшее количество памяти. Самая эффективная модель BERT + ALBERT использовала память объемом 1398 МБ и получала соответствующие объяснения по каждому требованию за 2,471 секунды. Задержки модели и использование памяти оценивались на одноядерном процессоре Intel Xeon с тактовой частотой 2,3 ГГц и 2 потоками.

Наблюдения:

Однако мы признаем, что наши модели могут допускать ошибки двух типов:

В первую очередь,

Модель A может не получить соответствующее объяснение, что автоматически означает, что прогноз, предоставленный моделью B, не имеет отношения к делу,

а во-вторых,

Модель A могла получить правильное (ые) объяснение (я), но Модель B классифицирует его неправильно. Мы показываем некоторые ошибки, допущенные нашими моделями, в этой таблице.

Выводы:

В этой работе мы продемонстрировали использование и эффективность предварительно обученных языковых моделей на основе Transformer для поиска и классификации фейковых новостей в узкоспециализированной области COVID-19. Предлагаемая нами двухэтапная модель работает значительно лучше, чем другие базовые подходы НЛП. Наша база знаний, которую мы готовим путем сбора фактических данных из надежных источников в Интернете, может быть динамичной и изменяться в значительной степени без необходимости повторного обучения наших моделей, пока распределение является согласованным. Все предлагаемые нами модели могут работать практически в реальном времени с относительно недорогими вычислениями. Наша работа основана на предположении, что наша база знаний является точной и своевременной.

Это предположение не всегда может быть верным в таком сценарии, как COVID-19, где «факты» меняются по мере того, как мы узнаем больше о вирусе и его последствиях. Поэтому необходим более систематический подход для поиска и классификации заявлений с использованием этой динамической базы знаний.

Будущая работа:

Наша будущая работа состоит из взвешивания нашей базы знаний на основе продолжительности претензий и сравнения каждой претензии с новыми источниками достоверной информации.

Производительность нашей модели может быть дополнительно повышена за счет более качественного предварительного обучения, благодаря знаниям в конкретной предметной области. В одной из последних работ авторы предлагают новый набор данных о семантическом текстовом сходстве, характерном для COVID-19. Предварительное обучение наших моделей с использованием таких конкретных наборов данных может помочь лучше понять предметную область и, в конечном итоге, повысить производительность. Фальшивые новости и дезинформация становятся все более важной и трудной проблемой, особенно в непредвиденных ситуациях, таких как пандемия COVID-19.

Использование современных алгоритмов машинного обучения и глубокого обучения наряду с подготовкой и отладкой новых наборов данных может помочь решить проблему ложных новостей, связанных с COVID-19 и другими кризисами в области общественного здравоохранения.

Авторы Пратюш Потлури, Рутвик Виджали, СИДДХАРТ КУМАР и Sundeep Teki, PhD.