Как машинное обучение может бороться с безумием фейковых новостей

«Ложь летит, а правда хромает за ней».
~ Джонатан Свифт (1710)

В Stabilitas мы используем искусственный интеллект (ИИ), чтобы понять, что происходит в мире, и мы передаем эту информацию нашим пользователям. Наши клиенты — профессионалы в области безопасности, и они используют новости как один из способов узнать о событиях, которые могут повлиять на их сотрудников.

Чтобы добиться глобальной осведомленности, мы анализируем и оцениваем смесь неструктурированных данных практически в реальном времени. Разнородные ингредиенты в этом коктейле включают авторитетные правительственные рекомендации, прогнозы погоды, тенденции в Твиттере и огромное количество новостей из открытых источников. Для менеджеров по безопасности с «беспроигрышными» позициями фальшивые новости не просто раздражают — они могут означать потерю доверия со стороны заинтересованных сторон и даже привести к травмам или смерти.

Поскольку «фейковые новости» сами по себе стали популярной темой новостей за последние две недели, было интересно увидеть множество предложений и подходов, предлагаемых для борьбы с этим распространением ложной информации.

Хотя эксперты и средства массовой информации недавно популяризировали прозвище фейковые новости, проблема немного более тонкая, чем можно предположить из этой фразы. В недавнем интервью NPR Вивиан Шиллер, бывший глава отдела новостей Twitter, описал многие характеристики фейковых новостей [перефразируя]:

Истории, намеренно вводящие в заблуждение
Истории, предназначенные для серьезной журналистики, но неверно истолковывающие факты
Заявления государственных должностных лиц, которые неверны, но о которых сообщается
Истории, в которых отсутствует контекст или перегружены недомолвками

Каждый день мы оцениваем десятки тысяч фрагментов неструктурированных данных. Чтобы оценить точность этих данных и отфильтровать сатиру, мы используем следующие подходы в нашем конвейере обработки.

Статистический анализ

Постоянно собирая и анализируя простые показатели эвристических характеристик новостных репортажей, мы построили базовую модель для оценки репутации новостных агентств. Сколько материалов каждый день публикует тот или иной новостной портал? Как долго наша система принимает отчеты из определенного источника?

Тематическое моделирование

Мы используем статистическую семантику для анализа обычного текста, определения семантической структуры и соединения семантически схожих документов. При использовании в сочетании с описанными ниже подходами к машинному обучению это эффективный способ сравнить новости по схожим темам и повысить доверие к отчету.

Машинное обучение — распознавание образов

Мы используем обучение с учителем на размеченных обучающих данных для выявления вхождений слов, языковых моделей и использования риторических приемов в новостных сообщениях. Каждый из этих факторов фигурирует в базовой оценке производительности и надежности для каждого источника новостей.

Машинное обучение — анализ настроений

С помощью анализа настроений мы стремимся понять количество положительных и отрицательных просмотров в каждом предложении, каждом абзаце и в целом в каждом отчете. В совокупности эти точки данных помогают нам понять тон и содержание отдельных отчетов и средств массовой информации. Эти показатели позволили нам разработать модель, сравнивающую силу настроений с надежностью сообщаемой информации.

Машинное обучение — обобщение

Мы используем сверточную нейронную сеть для выборки наиболее важных концепций из каждого новостного сообщения. Этот подход основан на недавно опубликованном исследовании Эдварда Х. Ли из Стэнфорда и позволяет нам свести длинную журналистику к ключевым выводам. Мы сверяем эти выводы с краткими описаниями аналогичных статей из разных источников, а затем присваиваем каждому отчету уровень достоверности.

Краудсорсинг

Stabilitas использует краудсорсинг как еще один способ определить, заслуживают ли доверия последние новости. Пользователи нашей веб-панели и мобильных приложений голосуют за или против информации в зависимости от ее полезности, и мы создаем анонимный профиль надежности каждого пользователя. Ошибки случаются, но тот факт, что пользователи могут быть удалены с платформы — системы, за использование которой они платят, — правильно согласовывает стимулы и поощряет честность в оценке появляющейся информации.

Более века назад желтая журналистика представляла серьезную проблему для прозрачности СМИ, поскольку редакции контролировали большую часть информации, потребляемой общественностью. Сегодня дезинформация, фактические ошибки и неверно истолкованный контекст — это последние вызовы, стоящие перед свободными и открытыми СМИ. Постоянное создание обширных, нерегулируемых новых информационных онлайн-каналов означает, что эти проблемы будут сохраняться, но мы не без помощи.

Машинное обучение и статистический анализ дают нам инструменты для определения интеллектуальной честности и фактической точности, оставаясь при этом впереди злонамеренных манипуляций с информацией. В нашем бизнесе быстрое понимание фактов может спасти жизнь!