Крестовый поход против фейкового контента

Обзор

В этой статье описывается возможное решение для выявления поддельного контента. Акцент в решении делается на обеспечение финансовой устойчивости и постоянства качества выявления фейкового контента.

Гипотеза, выдвинутая для определения подделки, включает

Контент из недостоверных источников (определение достоверности определяется далее)
Контент, помеченный многими потребителями/пользователями как поддельный; приоритет отдается тем, кто исторически идентифицировал правильный поддельный контент
Ручная проверка фальшивости контента экспертами, связанными с доменом или областью контента

Хотя содержание может быть разнообразным, включая, помимо прочего,

Новости
исследовательские отчеты
мошеннические заявления о бизнес-услугах / продуктах
и т.д…

В этой статье мы преследуем цель идентификации новостей, ввиду наличия большой потребительской базы и возможности использования информационных агентств/журналистов в качестве экспертов для ручной проверки.

Обнаружение

Подход, основанный только на искусственном интеллекте, может потерпеть неудачу

Обнаружение фейковых новостей — сложная задача, хотя есть некоторые решения, которые намерены использовать «ИИ» для ее решения; Качество (точность обнаружения) зависит от набора данных, используемых для обучения, набор данных подразумевает новости, их атрибуты/функции (которые являются характеристиками, полученными статистически, например, использование определенных ключевых терминов, заглавных букв в предложении, грамматических правил). структура и т. д.), его источник (веб-сайт или регион), помеченный как подделка или не произведенный вручную. Получение такого набора данных является дорогостоящим делом, поэтому делаются предположения с точки зрения того, как один небольшой набор данных может представлять разнообразный и объемный корпус фейковых новостей, скажем, для такой страны, как Индия с разнообразным родным языком, становится сложно наблюдать шаблоны фейковых новостей в различные диалекты и средства представления. Кроме того, набор данных необходимо периодически обновлять, поскольку шаблоны и структура фейковых новостей могут меняться со временем.
Из-за отсутствия хорошего набора данных, приобретение которого обходится дороже; Подход, основанный только на искусственном интеллекте, может быть финансово неустойчивым, и его качество вызывает озабоченность.

Полуконтролируемое обнаружение

Поэтому мы предлагаем двухэтапный процесс обнаружения.

Обнаружение с помощью потребителя

Мы намерены привлекать потребителей контента к пометке контента как поддельного с помощью расширения браузера, если контент получен на ноутбуке/компьютере или в мобильном приложении, для интеграции с другими приложениями, такими как WhatsApp.

Обогащение ИИ в отчетах потребителей

Затем помеченный контент анализируется программным обеспечением, чтобы ранжировать контент для ручной проверки его подлинности. Последует предварительная обработка контента для дедупликации, устранения шумового контента (например, рекламы) и т. д.

Ранг состоит из

количество потребителей, пометивших контент как спам
агрегирование оценок потребителей (обсуждается далее), которые пометили контент как спам
статистический (ИИ) прогноз о том, что контент является фальшивым, с оценкой достоверности
Аналитические прогнозы (например, влиял ли источник контента на фейковые новости в прошлом и т. д.).
и т.д... атрибуты

Фальшивые потребители

Поскольку существует возможность создания поддельной учетной записи потребителя для предвзятости в отчетах, создание поддельной учетной записи потребителя (атака Сивиллы), следовательно, усложняется за счет принятия обычных практик проверки учетной записи с помощью мобильного одноразового пароля, а также путем наказания за каждое ошибочное поддельное заявление о контенте путем снижения балла. связаны с потребителем.

Оценка

Ранжированный список контента, подлежащего оценке, будет предоставлен экспертному сообществу, сообщают журналисты. Кто должен оценивать контент, другие элементы данных, отображаемые системой (например, историю источников, статистику потребителей, выделенные фразы и т. д.)

В процессе оценки оценщик должен пометить контент как поддельный или нет, с подтверждающими данными, которые публикуются для аудита и проверки.

Счет

Оценка потребителя

Обеспечивает доверие потребителей на основе исторических показателей. Для каждого правильно помеченного контента как поддельного оценка увеличивается или уменьшается.

Исходная оценка

Обеспечивает достоверность источника (источника новостей) на основе его исторической производительности. В начале своего существования кураторский список источников, которые считаются заслуживающими доверия и которые нельзя использовать, со временем обогащается действиями потребителей и оценщиков.

Оценка содержания

Состав контента, который может иметь характеристики поддельного контента, как это было установлено ИИ, представлен в виде относительной оценки.

Оценка

Ошибочные действия оценщиков, выявленные после того, как оценщик пометил контент как поддельный, наказываются снижением балла. Также в зависимости от пула доступных оценщиков, оценщик может быть исключен.

Аналитический отчет

В конечном итоге каждый оцениваемый контент дополняется аналитическим отчетом с подробным описанием предпринятых шагов, причиной того, что он является фальшивым, источниками, предоставляющими неподдельные новости и т. д.

Затем этот аналитический отчет продается по соответствующим каналам.

Доход

B2B

Таким образом, корпус данных, обогащенный потребителем, ИИ и оценщиками, доступен для потребления через restful API, который другие носители публикации цифрового контента, рекламные компании и т. д. могут предоставить для фильтрации фальшивых новостей.

B2C

Используя то же расширение и мобильное приложение, потребители теперь могут быть предупреждены о том, что контент, который они потребляют, является поддельным.

Стимул

Периодически пересматривается рейтинг потребителей, и сегмент полученного дохода предоставляется потребителю пропорционально их вкладу. Доход может быть либо наличными, либо другими артефактами, такими как очки лояльности и т. д.
Оценщики получают вознаграждение за каждый обработанный контент