Продолжение из Борьба с фейковыми новостями с помощью машинного обучения.

Чтобы обрести больше уверенности в алгоритме, я проверил его на множестве случаев.

Примечание. На следующих графиках: по оси X представлены надежные источники, а по оси Y — расстояние между статьями из надежных источников и статьей запроса. Для наиболее связанных статей эти расстояния должны быть меньше, и наоборот.

Также, как мы видели в предыдущем посте, если значение distance ниже 0,65, мы можем определить распределение вероятности доверяйте статье. А если порог больше 0,65, мы снова можем определить распределение вероятности недоверия в статье.

1. Правые и левые сообщают об одной и той же новости

Большинство источников новостей предвзяты. Кто-то пытается его нейтрализовать, а кто-то зарабатывает на этом деньги. Обычно такие источники пишут подлинную историю, но с приводящим в бешенство или вводящим в заблуждение заголовком.

Одним из таких примеров являются новости о политическом хаосе. Эти источники новостей, хотя и сообщают подлинные новости в новостях (хотя и самоуверенные), обманывают нас в заголовках новостей. Из-за яростных заголовков такие статьи в изобилии распространяются в социальных сетях. Один из таких примеров:



Хотя название очень обманчиво, содержание подлинное. Источник утверждает, что статьей поделились в соцсетях 1,1 тыс. раз. Как мы все знаем, когда мы сталкиваемся с такими статьями в социальных сетях, у нас нет времени просмотреть всю статью, а мы полагаемся в основном на заголовок. В этом сценарии, поскольку тело подлинное, а название нет, я решил пометить их по отдельности.

Вышеупомянутая история является подлинной, и из правых СМИ мы также можем видеть, что в новостях Fox есть много статей, похожих на эту историю.

2. Когда сомнительные источники публикуют реальные новости, что является неортодоксальным.

Когда мы натыкаемся на новостные статьи, которых нет в основных СМИ, а также они неортодоксальны, мы обычно игнорируем их, считая их фальшивкой или мистификацией. Но иногда эти истории являются подлинными новостями. Эти истории, хотя и опубликованные основными СМИ, не находятся в центре внимания, потому что Дональд Трамп каждый день делает последние новости!



Популярное обезболивающее «нарушает выработку мужских гормонов и уменьшает яички
Популярное обезболивающее средство ибупрофен нарушает выработку мужских гормонов и выработку тестостерона, а также уменьшает… yournewswire.com»



Такие статьи не следует считать поддельными новостями. Этой проблемы можно избежать, используя этот алгоритм, поскольку он помечает их как настоящие новости.

3. Статьи от новых игроков отрасли

Когда новостные плееры, такие как Vice News (запущен в декабре 2013 года), публикуют какую-то новостную статью, мы не очень уверены в ее подлинности. Например,



Но когда мы запустим алгоритм для этой статьи, мы обнаружим, что это действительно так.

Следовательно, постепенно это может позволить пользователям завоевать доверие к таким источникам новостей.

4. Совсем недавняя новость

В случае очень недавнего новостного события алгоритм пытается собрать больше доказательств с течением времени. Например: 8 марта 2018 г., 21:12 по центральноевропейскому времени, Трамп обратил внимание на жестокие видеоигры, как сообщают CBS и Reuters.Но большинство из них ничего не сообщали. из других надежных источников.

В таких случаях, при тестировании через некоторое время, мы видим, что в промежутке почти все другие источники сообщали о подобных историях.



5. Самые раскрученные новости

Одна из самых известных фейковых новостей была опубликована WTOE 5 News. В статье утверждалось, что Папа Франциск нарушил традицию и безоговорочно поддержал Дональда Трампа на посту президента Соединенных Штатов. Это оказывается ЛОЖЬЮ.

Поэтому, когда dailybeast опубликовал, что Папа Франциск сказал, что Трамп не христианин, вполне естественно отнеслись к этой статье скептически.



Опять же, используя этот алгоритм, мы можем избежать предварительной предвзятости для новостных статей.

6. Новости из технического раздела

Технологический сектор также не свободен от проблемы фейковых новостей. Недавно была статья, в которой были взяты реальные факты и сделан вывод о чем-то зловещем, что создало мистификацию. Они сообщили, что озабоченные исследователи искусственного интеллекта поспешно отказались от экспериментальной программы чат-ботов после того, как поняли, что боты изобретают свой собственный язык.



В технических новостных статьях я полагаюсь на такие источники технических новостей, как:

techcrunch, грань, cnet, mashable, wired, thenextweb, engadget, techradar

Используя эти источники в своем алгоритме, я получил для статьи следующий результат:

Даже в общих источниках новостей статья была помечена как фейковая:

Вывод:

Используя этот алгоритм, мы можем получить оценку сходства между статьей запроса и статьями из надежных источников. Мы можем защитить себя от поддельных новостных статей, опубликованных в социальных сетях через некоторые новые источники новостей, но при этом не пропустить настоящие статьи из тех же источников. Это особенно полезно, если появляется новый источник новостей.

Также мы можем рассчитать, как часто и в каком соотношении он публикует настоящие новости и ложные новости. Сохраняя это как показатель надежности, мы можем использовать его как надежный источник. Следовательно, это может разрушить монополию таких брендов, как CNN.

Меры Facebook по борьбе с фейковыми новостями путем отдания приоритета каналам только из надежных источников повлияли на бизнес цифровых медиа-компаний нового поколения, таких как Vice, Vox.

Изменения в новостной ленте окажут наиболее негативное влияние на издателей, которые в первую очередь полагаются на Facebook в плане реферального трафика, и на те компании, которые специализируются на производстве и распространении спонсируемых видеороликов для Facebook, — говорит Кристофер Воллмер, руководитель отдела глобального консультирования в сфере развлечений и СМИ в PwC.

При таком подходе этого можно избежать, кроме того, что читатель будет проинформирован о подлинности истории.

Если у вас есть интересный тест-кейс, который можно использовать как тест-кейс, добавьте его в комментарии!