Алгоритм подталкивания: вниз по кроличьей норе YouTube

Беспрецедентная роль социальных сетей и фейковых новостей в стимулировании поведения избирателей на недавних выборах в США была в центре внимания всего, от статей-расследований до научных статей.

В недавней статье, заставляющей задуматься (Вымысел превосходит реальность), The Guardian сосредоточился на роли YouTube ( вместе с марионетками Facebook и Twitter) в постоянном разоблачении онлайн-пользователей к значительному количеству сомнительного содержания. Согласно их исследованию, алгоритмы можно обмануть, чтобы рекомендовать все более сенсационный, манипулятивный и часто поддельный контент, предназначенный для подталкивания пользователей к еще более экстремальным взглядам.

Гийом Шасло, бывший инженер Google, поддерживает эту точку зрения в своем личном проекте AlgoTransparency.org. Его проект, имитирующий учетную запись без истории просмотров, демонстрирует, как, начиная с беспристрастного поиска информации, зрители в конечном итоге сталкиваются с все более предвзятым содержанием на каждом последующем этапе рекомендаций YouTube.

Согласно The Guardian, Сохраняя алгоритм и его результаты в секрете, YouTube гарантирует, что любые шаблоны, указывающие на непреднамеренные предубеждения или искажения, связанные с его алгоритмом, скрыты от общественности.

Гарвардский (техно) социолог Зейнеп Туфекчи (автор книги Твиттер и слезоточивый газ: сила и хрупкость сетевого протеста) разделяет этот мрачный взгляд на онлайн-контент, давящий на пользователей навсегда. темная кроличья нора . Проведя год, анализируя влияние технологий на современное общество, Туфекчи признает их положительный вклад, но также предостерегает от способности алгоритмов предсказывать гораздо больше, чем ваш вкус к развлечениям.

Предоставляя рекламодателям информацию о наших привычках, мы позволяем им неожиданным образом переходить черту конфиденциальности, просто чтобы иметь возможность настроить свои усилия по таргетингу рекламы. Просто чтобы дать вам представление о том, насколько это серьезно: теперь есть способы нацеливать сообщения на людей с биполярным расстройством, когда они входят в маниакальную фазу и более восприимчивы к определенным типам сообщений.

Воздействие определенных типов контента действительно может предрасполагать онлайн-пользователей к совершению определенных покупок или склоняться к определенным пристрастным решениям. Но действительно ли это вызвано вредоносными алгоритмами или умышленным злоупотреблением технологиями, лежащими в основе этой платформы? Или это феномен, возникший из психологии поиска и взаимодействия с онлайн-контентом, подпитываемый чем-то, что гораздо сложнее контролировать и контролировать? Другими словами: алгоритмы изменяют поведение или алгоритмы просто отражают (и усиливают) уже существует предрасположенность к взаимодействию с таким контентом?

Психологические предубеждения и поведенческие тенденции, которые являются частью социального познания, теперь все больше переплетаются с эффектами технологий, которые мы еще не полностью понимаем.

Как отмечают инженеры Google, они настраивают механизм рекомендаций на основе поведенческих представлений, таких как тот факт, что « пользователи часто находят художников в жанре, начиная с наиболее широко популярных, прежде чем сосредоточиться на более мелких нишах ».

Направление рекомендаций для перехода от более широких категорий к более конкретным и нишевым предложениям - отличный подход, если человек интересуется рок-музыкой и открывает для себя выбор поджанров блюз-рока. Однако этот подход имеет зловещий поворот, если он уводит зрителя от более широкого консервативного мейнстрима к еще более радикальным кадрам насилия и крайне правых взглядов.

Кроме того, рекомендации по контенту основаны на истории просмотра и прогнозах, основанных на совместной фильтрации, но при этом плата за контент существует в спектре.

Рекомендации явно и неявно разжигают пузыри предвзятости подтверждения. В реальной жизни люди с большей вероятностью будут взаимодействовать с другими людьми, которые поддерживают и подтверждают ваши ранее существовавшие убеждения. Алгоритмы онлайн-рекомендаций усугубляют проблему, предоставляя пользователям исключительно контент, который еще больше укрепляет и радикализирует их взгляды.

Если вы сознательно не ищите разные точки зрения, онлайн-взаимодействие приведет вас к тому, что вы увидите все более левый или все более правый контент, при этом отчуждая вас от позиций, выражаемых другой стороной.

Этот процесс облегчает вам запутывание и внушение и устраняет множество нюансов и законных взглядов, которые на самом деле существуют в сложном пространстве посередине.

Есть еще одно предостережение: разбить спектр человеческих убеждений и позиций по экономическим, социальным и политическим вопросам очень сложно. Упрощенное разделение на левые и правые подходит для обобщений на групповом уровне, но часто для отдельных лиц придерживаться сложных, очень тонких и иногда противоречивых убеждений.

Настроить алгоритмы, чтобы рекомендовать конкретные предложения в рамках умеренных склонностей каждого пользователя по разным темам, является сложной задачей. Таким образом, гораздо проще действовать, используя обширные обобщения (и упрощения) и подталкивая людей к контенту, который отражает крайние стороны спектра, а не тонкие нюансы.

Как однажды заметил журналист Тим Пул, если вы придерживаетесь законных основных консервативных взглядов, алгоритмы смешивают вас с людьми из самых разных политических прав, вне зависимости от того, совпадают ли цены или нет. L говорят, что вы поддерживаете свободную торговлю, меньшее государственное вмешательство и меньшие налоги (ничего радикального в этих взглядах): имея вкус к новостям по этим темам, альтгоритмы рано или поздно объединят вас с другими пользователями с консервативные взгляды, и после достаточного количества итераций системы рекомендаций вы в конечном итоге будете просматривать крайне правый контент, выходящий далеко за пределы вашей позиции справа от центра по экономике.

Рано или поздно информационные пузыри, которые мы живем в сети, также переходят в офлайн-взаимодействия. Доступ к информации, вероятно, одна из важнейших особенностей Интернета. К сожалению, этот доступ редко используется для критической проверки фактов и чаще всего поддерживает только выборку вишен и предвзятость подтверждения.

Вместо того, чтобы наводить мосты, обилие информации в конечном итоге создает невидимые ограждения вокруг наших реальных и воображаемых предпочтений.

Алгоритмы не порождают предвзятости, а также у них нет программы поддержки фальшивого контента и теорий заговора. Явление, которое мы наблюдаем, возникает случайно и является результатом порочного круга в потреблении контента.

Даже если нет сознательного спроса на сенсационный контент для кликбейтов, коктейль из человеческого любопытства и легковерности обеспечивает достаточный интерес зрителей, чтобы спрос поднялся до предложения контента.

Результатом является щелчок по видео, но причины для этого могут сильно различаться. От реальной подозрительности до теорий заговора через чистое любопытство и желание посмеяться над возмутительным контентом: есть много причин, чтобы что-то посмотреть. Как медиа-аналитик, я регулярно смотрю контент, который лично мне не нравится, но помогает мне получить представление о различных точках зрения, мыслить критически и попытаться понять как среду СМИ, так и то, что нравится и о чем думают потребители.

Статья в Guardian заставила меня много задуматься над проблемой продвижения определенных типов контента. Хотя я считаю, что психологические предубеждения и привлекательность эмоционально нагруженного конспиративного контента сделали этот контент популярным (а алгоритмы просто распознали эту тенденцию и усилили ее), я не могу отрицать некоторые тревожные тенденции.

Я решил выполнить быстрый поиск в Google Trends по двум распространенным темам: теории плоской Земли и движение против вакцин, просто чтобы посмотреть, появятся ли какие-либо тенденции на основе данных.

Помня, что корреляция не является причинно-следственной связью, я должен признать, что интересно, что поисковые запросы YouTube по запросу «плоская земля» (как поисковый запрос) и споры о вакцинах (как более широкая тема) достигли пика либо одновременно, либо как минимум через месяц. до того, как их количество поисковых запросов в сети Google резко увеличилось. Таким образом, кажется правдоподобным, что интерес и потребление видеоконтента по данной теме может способствовать сдвигу в понимании или, по крайней мере, открытости, чтобы увидеть больше того же.

Это очень простая идея, которая требует большого количества дополнительных подтверждений данных, и когда у меня будет больше времени, я бы хотел углубиться в нее.

Использование глубоких нейронных сетей и алгоритмы, лежащие в основе рекомендательной системы YouTube, являются проприетарными, поэтому в значительной степени они намеренно остаются непрозрачными для защиты уникальных преимуществ компании и защиты авторских прав по отношению к технологии. Согласно общедоступной информации, система рекомендаций YouTube состоит из двух нейронных сетей, представляющих различные этапы поиска информации (см. рисунок 1):.

Генерация кандидатов сужает массивную базу данных до подмножества видео, которые могут иметь отношение к пользователю, и использует неявную обратную связь (в отличие от явных указаний большого пальца вверх / вниз) для обеспечения классификации на основе пользователя история, совместная фильтрация и т. д. История поиска и просмотра токенизируется (превращается в строки с заданным значением), а демографическая информация о пользователе встроена.

Слои глубины (часы, поиски, пример возраста обучения) улучшают модель, позволяя ей использовать дополнительные функции, моделируя их взаимодействие и превосходя старые подходы.

Модель использует данные о показах для персонализации и калибровки прогнозов. Поскольку несколько сотен видео отфильтровываются для модели генерации кандидатов, рейтинг ограничивается этим возможным подмножеством, а не всей массивной базой данных YouTube.

Для корректировки рейтинга используется много A / B-тестирования, и такие детали, как время просмотра, используются в качестве лучшего предиктора, чем рейтинг кликов (который может быть увеличен с помощью кликбейт-видео). Существует также ряд категориальных и непрерывных / порядковых характеристик, определяемых множеством факторов, включая свойства содержания / элемента, такие как количество показов, и свойства пользователя. (история поисковых запросов или количество недавно просмотренных видео).

Специализированные функции, ориентированные на поведение пользователей и элементы, предоставляют обширные данные для рекомендательных систем. Наличие слоев глубины также помогает моделировать нелинейные взаимодействия между огромным количеством функций.

Три самых сложных ограничения для рекомендательной системы (по мнению инженеров Google Пола Ковингтона, Джея Адамса и Эмре Саргина)

Масштаб: с 1,5 миллиардами зарегистрированных пользователей каждый месяц, которые проводят на платформе час в день (в среднем), рекомендации YouTube нуждаются в узкоспециализированных алгоритмах распределенного обучения и эффективных системах обслуживания.

При таком огромном объеме контента алгоритмы отдают предпочтение контенту, который кажется не только актуальным для пользователя (и аналогичных групп пользователей), но и интересным. Поэтому, даже если они отрицательные, комментарии и взаимодействия с видео делают его более заметным. Алгоритм не может различать качество и глубину информации, как это сделал бы рецензент, но он может распознавать вирусный контент и вознаграждать его.

2. Свежесть: в 2017 году ежедневно потреблялся 1 миллиард часов контента YouTube, и пользователи загружали сотни часов нового контента каждую минуту. Это создает проблему для системы рекомендаций по включению нового контента и последних действий пользователей.

3. Шум. На историю пользователей влияют внешние факторы, которые не всегда отражают предпочтения, которые необходимо учитывать при будущих рекомендациях.

Просмотр более детализированного контента или видео, которые расходятся с установленной схемой просмотра, можно искоренить как шум, тем самым способствуя упрощению и обобщению интересов в сторону более крайних концов спектра вместо сложного контента, обслуживающего более сложные просмотры определить.

Есть также кое-что интересное, что нужно принять во внимание, и это исследование только недавно подталкивает к этому: психологию того, как сенсационный контент кликбейта привлекает наше внимание и влияет на наши привычки просмотра.

Несколько лет назад MIT Technology Review освещал масштабное межъязыковое исследование Марко Герини (Университет Тренто) и Якопо Стаяно (Университет Сорбонны, Париж), в котором исследовалась связь между эмоциями и вирусностью в 65000 историях.

Они использовали модель валентности-возбуждения-доминирования, чтобы выяснить, почему одни истории становятся вирусными, а другие - нет. Эта модель фокусируется на трех основных измерениях:

У каждой эмоции есть валентность (положительная или отрицательная).
Он вызывает определенный уровень возбуждения (высокий для эмоций, таких как гнев, и низкий для таких эмоций, как печаль).
У каждого человека есть уровень доминирования (или контроля) над эмоцией (например, такие эмоции, как страх, подавляющие, и мы, как правило, не можем доминировать над ними).

Герини и Стаяно обнаружили, что контент, который вызывает больше комментариев или репостов, связан с эмоциями сильного возбуждения (такими как счастье и гнев) и эмоциями, когда люди чувствуют себя менее контролирующими (например, страх и печаль).

Контент, который набирает больше голосов (лайков) в соцсетях, связан с эмоциями, которые люди больше контролируют: например, с вдохновением. Интересно, что валентность вообще не влияла на виральность. Другими словами, не имело значения, вызывает ли контент положительные или отрицательные эмоции.

Это дает нам некоторое представление о том, почему сенсационный контент кликбейта (даже если он содержит крайнее насилие или пограничные негативные темы) так заметен: его описание специально разработано, чтобы вызвать сильные эмоции и ошеломить зрителей.

____

Итак, что вы думаете? Есть ли массовые попытки обмануть и манипулировать алгоритмами или мы просто наблюдаем, как предубеждения и склонности, присущие человеческой природе, искажаются и усиливаются в искусственной социальной среде онлайн-среды?

Первоначально опубликовано в Digital Vault на medium.com 22 февраля 2018 г.

Алгоритм подталкивания: вниз по кроличьей норе YouTube

Вопросы по теме