Модерация контента в 2021 году: люди против ИИ

Интернет, даже при всех своих достоинствах, может быть очень темным и тревожным местом. Защита анонимности позволяет людям вести себя определенным образом, который в противном случае вызвал бы насмешку со стороны общества. В этой статье рассказывается о текущих способах сдерживания оскорбительного содержания и она поможет вам принять более обоснованное решение.

Наступил 2021 год, и мы загружаем и потребляем контент быстрее, чем когда-либо прежде. Например, в 2020 году было сделано 1,2 триллиона фотографий, и миллиарды из них были опубликованы в Интернете - это в среднем ~ 200 фотографий на человека в год (при условии, что население мира составляет 7 миллиардов человек). У самого Facebook ошеломляющая скорость загрузки 300 миллионов фотографий каждый день, и армия из 7500 модераторов работает над модерированием этого контента.

Порно везде

При таком огромном всплеске также быстро увеличилось количество людей, загружающих контент сомнительного характера, и, честно говоря, мы изо всех сил пытаемся это контролировать. Основные социальные сети, несмотря на то, что вы думаете, забиты контентом NSFW, например, порно. Это игра в кошки-мышки, где такой контент фильтруется, а пользователи / хэштеги / группы блокируются, но они продолжают возвращаться, только умнее и труднее поймать. Вот скриншот статьи о неясных арабских хэштегах, которые используются для публикации порно в Instagram.

Поскольку большая часть нашего контента переходит на мобильные устройства, Apple (App Store) и Google (Play Store) являются стражами для просмотра контента, который мы просматриваем.

Все мы слышали недавнюю проблему Apple удаляет приложение Tumblr из App Store после обнаружения детской порнографии, но это лишь один из примеров того, как платформа пытается модерировать контент и подвергается наказанию.

Tumblr все еще может выжить и поправиться; но есть множество приложений, которые потерпели неудачу с тех пор, как их покинули орды пользователей, поскольку они стали бастионом порнографии и другого оскорбительного контента, который администраторы не могли контролировать.

Зачем тебе волноваться? Если вы являетесь владельцем приложения, работающим с пользовательским контентом или пользовательским контентом, как это широко известно, вы потенциально подвержены множеству рисков, таких как репутационные, экономические или даже серьезные юридические риски. (см .: Индия бросает в тюрьму главу Ebay)

Но сначала давайте разберемся, что считается «оскорбительным», чтобы лучше его смягчить, поскольку это не так просто, как вы думаете.

Определение «оскорбительного» содержания (?)

Глобальный контекст

Работать в глобальном масштабе и устанавливать стандарты содержания непросто. Большинство компаний пытаются навязать одни и те же правила пользователям из разных демографических групп с разными культурными особенностями. И вот где они терпят неудачу.

Компании, осуществляющие глобальную экспансию, часто сталкиваются с проблемами с местной администрацией, если они не принимают во внимание свою местную культуру. В июле 2018 года правительство Индонезии запретило TikTok, популярное приложение для создания коротких музыкальных видео. Вот отрывок из газетной статьи, освещающей эту проблему:

Министерство заявило, что оно запретило приложение, поскольку оно содержит негативные видео, которые, как считается, плохо влияют на молодежь ... Общественные настроения в Индонезии обращаются против Tik Tok, популярного среди 13-15-летних, поскольку есть ролики о подростках, проявляющих провокационное поведение. Одно такое видео изображает танцующего подростка. Затем он превращается в мертвое тело, по-видимому, родственника подростка.

Помимо наготы / порно, существуют региональные правила, касающиеся:

религиозные ненавистнические высказывания, подстрекающие к насилию
фальшивые новости и распространение в политических целях
клеветнические высказывания против человека / организации

Список может продолжаться в зависимости от региона, в котором вы в основном работаете, и стандартов свободы слова, существующих в этом регионе. Чтобы получить какой-то контроль в таких ситуациях, организации все чаще ищут решения для следующих случаев использования:

Извлекать текст из изображения с & отсканированные файлы
Извлекать текст из PDF документов (он же парсер PDF)
Извлекать данные из PDF или отсканированных файлов
конвертировать или извлекать таблицы из PDF или изображений
Извлекать текст из PDF или других нередактируемых форматов

Вот выдержка со страницы Википедии об Orkut - некогда популярной социальной сети:

В 2008 году Google объявил, что Orkut будет полностью управляться и эксплуатироваться в Бразилии компанией Google Brazil, в городе Белу-Оризонти. Это решение было принято в связи с большой базой пользователей в Бразилии и ростом юридических проблем.

Учтите, что вся деятельность социальной сети в США была перенесена в другую страну, чтобы лучше соответствовать местным законам.

Что представляет собой нагота / порно

Даже базовое определение понятий нагота или порно в высшей степени субъективно и столь же произвольно, как и правила общества. Рассмотрим Instagram, который разрешает« мужские соски , но запрещает женские соски ».

Некоторые разрешают показ обнаженной натуры в определенных особых случаях.

Возьмем, к примеру, Tumblr, который недавно обновил свои правила содержания с некоторыми интересными исключениями:

Запрещенный контент включает фотографии, видео и GIF-изображения гениталий человека, соски, изображающие женщину, а также любые материалы, связанные с половыми актами, включая иллюстрации. Исключение составляют классические обнаженные статуи и политические протесты с изображением обнаженной натуры. Новые правила исключают текст, поэтому эротика разрешена. Иллюстрации и изображения с изображением обнаженной натуры по-прежнему в порядке (если не изображены половые акты), а также фотографии грудного вскармливания и послеродовые фотографии.

Давайте посмотрим на правила содержания для других крупных социальных сетей:

Надеюсь, я высказал свое мнение о том, что создавать стандарты для содержания действительно сложно из-за их субъективной природы.

Итак, предположим, что вы создали широкий первый набор правил, который работает для вашего приложения. Следующим шагом является либо использование модераторов-людей, либо использование вашего сообщества для «сообщения» о таком контенте, либо использование ИИ для их обнаружения, или обычно сочетание всех трех.

Использование модераторов-людей

Ключевые вопросы, на которые вам нужно ответить, нанимая модераторов-людей:

Сколько это стоит? Какая производительность и время отклика? Как они обычно оценивают видео? Как будет выглядеть поток? Как вы определяете четкие стандарты для снижения субъективности, особенно в крайних случаях?

Мы пошли дальше и обратились к 7 модераторам аутсорсинговых агентств и получили расплывчатые (а?) Ответы от 4 из них. Как правило, это BPO, вооруженные сотнями подрядчиков по вводу данных из развивающейся экономики с низкой заработной платой. Вы можете найти их отзывы здесь.

Taskus
Scale.ai
Webpurify
Foiwe
Olapic
Assivo
UGC Moderators

Стоимость:

Мы получили ценовые отзывы.

Модераторы пользовательского контента - самый дешевый вариант из трех для изображений стоимостью 0,01 доллара США за изображение.

2. Время выполнения: Webpurify указывает, что время выполнения составляет ‹2 минуты. Все остальные открыто говорят об этом. При работе с большими объемами сервису придется поддерживать большой штат модераторов, чтобы работать в режиме, близком к реальному времени, что для некоторых является императивом.

3. Видео. Webpurify также упоминает создание видео по 0,15 доллара за минуту.

Другой провайдер, UGC Moderators, стоит 2 доллара в час. Если предположить, что они могут просматривать 5 видео продолжительностью 1 минуту в минуту, это ~ 0,07 доллара США за минуту видео.

Consider this for Youtube where 400 hours of video gets uploaded every minute. = 2400 minutes of video/minute. 
Multiply that by Total number of minutes in a year (60 x 24 x 365) and that’s a staggering expense of ~$1.2 billion every year! 
Even putting in 50% consideration for volume discounts, ~$600 million.

Субъективный характер решения о том, какой контент оставить, делает важным наличие определенного количества модераторов-людей. Но, как видите, они могут очень быстро стать очень дорогими.

Травма

Важно добавить, что работа очень тревожная и может причинить травму людям, которые делают ее изо дня в день. Бывший модератор контента подал в суд на Facebook, заявив, что изображения насилия вызвали у нее посттравматическое стрессовое расстройство. Отличный документальный фильм под названием Модераторы, в котором рассказывается о жизни некоторых из этих людей:

Даже Facebook со всеми его железными механизмами по-прежнему подвержен риску судебных разбирательств из-за «негуманной» практики работы. Выдержка из той же статьи в New York Times:

Вы приходили на работу в 9 утра каждое утро, включали компьютер и смотрели, как кому-то отрубают голову, - сказал Гардиан в прошлом году человек, пожелавший остаться неизвестным, но упомянутый в иске. «Это то, что вы видите каждый день, каждую минуту. Отрубают головы ".

Это тяжелая работа.

Точность

Несмотря на установление четких руководящих принципов, модераторы-люди по-прежнему могут быть подвержены ошибкам, поскольку от них ожидается, что они будут работать быстро, чтобы справиться с большим объемом и выполнить свое определенное SLA. Модератор агентства, с которым мы говорили в Индии, должен модерировать 10-15

Они борются, особенно в крайних случаях, и в конечном итоге совершают множество ложных срабатываний, то есть называют то, что не является порно. Это может в конечном итоге препятствовать свободе слова, за которую выступают некоторые из этих платформ, и пользователи могут восстать из-за двойных стандартов.

Подводя итог, модераторами-людьми являются:

На данный момент неизбежно из-за субъективного характера контента.
Дорого, особенно при масштабировании
Склонен к травмам
Склонен к ошибкам, особенно при больших объемах и крайних случаях

Поэтому становится действительно важно отслеживать, насколько успешно работают ваши модераторы.

Метрики для отслеживания работы модератора

Это показатели, которые вы обычно должны отслеживать, чтобы увидеть, как работают ваши отдельные модераторы, хотя вы можете использовать другие показатели в зависимости от требований вашего бизнеса. Метрики основаны на искусственном интеллекте и подчеркивают две вещи, которые могут повредить больше всего:

Ложные срабатывания

Называть что-то «порно», что «не порно»

Ложно-отрицательные слова

Называть что-то «не порно», а порнографией (больнее всего!)

Точность

Количество правильно идентифицированных изображений (порнография - порнография, безопасно - безопасно). Еще одна метрика здоровья, которую нужно отслеживать, чтобы быть на верном пути.

Точность

Количество идентифицированных порнографических изображений, которые на самом деле являются порнографическими. Чем выше, тем лучше.

Если у вас есть бизнес, где свобода слова / выражения критически важна (например, Reddit), вам необходимо убедиться, что модераторы не помечают изображения, которые соответствуют правилам, как «небезопасные». Тогда ваш самый важный показатель - это точность.

Напомнить

В общем, сколько порнографических изображений они обнаружили. Чем выше, тем лучше.

Если у вас есть бизнес, где вам нужно обслуживать свою аудиторию, здоровый семейный просмотр подходящего контента, вам нужно убедиться, что любое изображение, не соответствующее правилам, не проходит ваши фильтры. Тогда ваш самый важный показатель - Напомнить.

Оценка F-1

Более полезный показатель, включающий как точность, так и отзывчивость. Чем выше, тем лучше.

Если вам нужно быть где-то посередине между отказом от ущемления свободы слова и соблюдением строгих правил, показатель F1 - ваш показатель, который нужно отслеживать.

Вот как их вычислить:

Вот блок-схема, которая поможет вам лучше понять терминологию:

Просматривая случайную процентную выборку ежедневной работы каждого модератора и устанавливая контрольные показатели, вы можете следить за их эффективностью.

Также мы заметили, что пометка подкатегории отброшенного сообщения (Мясо, Суггестивная нагота, Откровенная нагота, Наркотики и т. Д.) И отслеживание показателей в этих категориях намного полезнее при планировании ваших будущих программ обучения.

Использование искусственного интеллекта

На рынке присутствует несколько коммерческих API, которые обнаруживают контент NSFW.

Используя глубокие нейронные сети, эти API-интерфейсы обеспечивают обработку изображений на основе машинного обучения для модерации контента на платформе пользователя, в основном выявляющего наготу, порнографию (половые акты) и кровь. Ключевые вопросы, на которые нужно ответить при выборе API:

Сколько это стоит? Какое время отклика? Какие показатели вы используете для оценки их эффективности? Какое время настройки и интеграции?

Мы сравнили следующие API:

Amazon
Clarifai
DeepAI
Google
Microsoft
Nudedetect
Nanonets
Picpurify
Sightengine

Расходы

Вот сколько они стоят за изображение:

Самая низкая цена Nanonets - 0,0009 долларов за изображение, за ней следуют Amazon и Microsoft по 0,001 доллара за изображение.

Построение этого:

Средняя цена за изображение составляет ~ 0,001 доллара.

Сравнивая это с самой дешевой ценой для модераторов-людей, которая составляет 0,01 доллара США. Модераторы-люди в 10 раз дороже поставщиков AI API! Визуализируем это в виде графика:

Показатели

Метрики для оценки остаются такими же, как и у обычных модераторов: Accuracy, Precision, Recall и F1. Есть отличная статья, в которой дается Сравнение лучших API модерации изображений NSFW на 2018 год по этим показателям.

Настройка и интеграция

Большинство этих API-интерфейсов размещены в Интернете и легко интегрируются.

Обычно они содержат несколько строк кода, которые необходимо интегрировать и передать URL-адрес изображения или байты (необработанный файл).

Nanonets предоставляет дополнительное преимущество: создание образа докера для вашей модели и размещение его на вашем сервере.

sudo nvidia-docker run -p 8081:8080 docker.nanonets.com/{{model_id}}:gpu

Пример строки кода для запуска модели в контейнере докера.

Время отклика

Большинство API обещают время отклика 200–300 миллисекунд. Однако это не включает время в пути между вашими серверами и также может варьироваться в зависимости от размера отправляемого изображения. Поэтому вам, вероятно, следует захотеть, чтобы у вашего провайдера был сервер в вашем регионе для быстрого ответа или просто используйте службу докеров Nanonets и разверните ее локально.

Сравните это с сервисом модерации людей Webpurify, который обещает время ответа ‹2 минуты. Это в 10 раз больше времени отклика по сравнению с API!

Подводя итог, можно сказать, что API-интерфейсы на основе машинного обучения по сравнению с модераторами-людьми:

Более дешевый
Быстрее
Легче масштабировать
Машины не терпят травм (!)

В общем, машины определенно больше подходят для этой работы, чем люди.

Так зачем нам все еще нужны модераторы-люди?

Что ж, ответ на этот вопрос заключается в том, что машины все еще не приспособлены для обработки субъективности и их легко обмануть.

Расовая предвзятость

Рассмотрим следующее изображение:

Мы попробовали изображение выше с двумя службами, упомянутыми выше:

Clarifai

Picpurify

Так что же здесь произошло? Узоры и прозрачная природа женской одежды запутали нейронные сети, и они не смогли классифицировать изображение как NSFW или дать совершенно другой прогноз.

Отсутствие данных о тренировках обнаженных японок в традиционном кимоно может создать такого рода предвзятость для этих API, которые в основном базируются за пределами США и Европы и обучают свои сети в основном изображениям лиц большинства национальностей в их регионе. Так что, если у вас есть пользователи, не относящиеся к этим регионам, и которые загружают местное порно (или другой оскорбительный контент), большинство готовых к использованию API-интерфейсов могут быть здесь не слишком полезны.

2. Социальный контекст

Как было показано выше, над тем, что хорошо в одном регионе, могут посмеяться в другом. Поскольку большинство поставщиков AI API базируются в западных регионах, они, как правило, не подходят для более консервативных регионов мира. Таким образом, вопрос о том, что такое NSFW, очень специфичен для вас, вашей демографической группы пользователей и регионов, в которых вы работаете. Ясно, что готовый к использованию API не является ответом и, следовательно, нуждается в модераторах-людях.

3. Один размер не подходит всем

Большинство поставщиков API оценивают приемлемость изображения или могут дополнительно пометить его в соответствии с заранее определенными метатегами. Amazon помечает изображения следующим образом:

Теперь у вас может быть несколько собственных тегов для создания на основе обслуживаемой вами ниши, которые попадают между этими категориями. У вас нет возможности сделать это. Тегирование (которое является основой рекомендаций) сегодня является основой большинства социальных приложений UGC, и при использовании любого из готовых к использованию API вы застрянете с заранее определенными тегами.

Как уменьшить зависимость от модераторов-людей

Постоянное переобучение моделей для выявления недостающих пробелов - это способ уменьшить человеческую зависимость. Повторное обучение в основном означает добавление вашего конкретного набора данных NSFW и обучение его «поверх» уже существующей модели. Таким образом, модель продолжает улучшаться в определении вещей, которые она ранее упустила.

Скажем, например, на вашей платформе есть изображения антисемитского характера, и вы хотите их запретить, чтобы создать среду, свободную от ненависти. Выбранный вами поставщик API в настоящее время не фильтрует такие изображения, и вы хотите создать набор данных из этих антисемитских изображений, которые следуют типичному шаблону. Вы можете создать набор данных из этих изображений и повторно обучить существующую модель, чтобы она могла начать классифицировать их как «небезопасные».

Но большинство поставщиков API не позволяют вам этого делать или это входит в их уровень Enterprise.

Введите Нанонец

Мы в Nanonets понимаем эту конкретную проблему и добавили функцию добавления ваших собственных изображений и определения дополнительных тегов поверх нашей модели Модерация контента, чтобы вы могли повысить общую точность для ВАС.

Используя трансферное обучение, мы обучаем модель, которая учится на ваших данных и адаптируется к вашим потребностям.

Пример использования: крупнейшая социальная сеть в Индии

Проблема

У нас была крупнейшая в Индии местная социальная сеть с более чем 50 миллионами активных пользователей в месяц, которые обращаются к нам с очень конкретной проблемой. Выбранный ими поставщик API допускал ошибки при отправке индийских изображений. Точность их предыдущего провайдера на таких изображениях составляла ~ 72%.

Почему их существующее решение не работало?

Модель машинного обучения хороша ровно настолько, насколько хороши данные, которым она подвергается. Большинство текущих доступных моделей модерации были обучены на общих данных. Таким образом, они не могут прогнозировать контент, созданный пользователями, который создается на местном уровне с использованием низкокачественных камер на бюджетных смартфонах в сельских районах Индии.

Эти изображения сильно отличаются по содержанию, цвету кожи, камере и т. Д. От общедоступных изображений, которые можно найти в поисковой системе по вашему выбору или в любом общедоступном наборе данных.

Решение:

Мы спросили компанию об их требуемом уровне чувствительности к обслуживаемой демографии пользователей и около 10 000 изображений - как положительных, так и отрицательных образцов.

Мы использовали эти данные для обучения новой модели поверх уже существующей. Это позволило нам точно настроить чувствительность и открыть модель для контента, специфичного для их платформы.

Полученные результаты:

Теперь у нас была модель, точность которой увеличилась более чем на 23% и подскочила до ~ 95%! Все упражнения от определения постановки задачи до обмена данными и последующего предоставления модели заняли

точность улучшена более чем на 23% и подскочила до ~ 95%!

Возможность настраивать наши модели для конкретных демографических характеристик и определений NSFW позволяет ему быть гораздо более мощным и искусным в решении этой проблемы.

Модерация контента в 2021 году: люди против ИИ

Порно везде

Определение «оскорбительного» содержания (?)

Глобальный контекст

Что представляет собой нагота / порно

Использование модераторов-людей

Травма

Точность

Метрики для отслеживания работы модератора

Ложные срабатывания

Ложно-отрицательные слова

Точность

Точность

Напомнить

Оценка F-1

Использование искусственного интеллекта

Расходы

Показатели

Настройка и интеграция

Время отклика

Так зачем нам все еще нужны модераторы-люди?

Clarifai

Picpurify

Как уменьшить зависимость от модераторов-людей

Введите Нанонец

Пример использования: крупнейшая социальная сеть в Индии

Проблема

Почему их существующее решение не работало?

Решение:

Полученные результаты:

Вопросы по теме