Последствия для моделей политической классификации и поведенческих исследований

Reddit является домом для широкого спектра политической деятельности, и пользователи выражают свою политическую принадлежность по-разному — от комментариев о том, за кого они голосовали, до публикации в r/Liberal. Предыдущие исследования политической активности в Интернете, как правило, рассматривали политических пользователей как единый блок, как при анализе их поведения, так и при прогнозировании их политических взглядов.

В этом проекте наша цель состояла в том, чтобы сделать шаг назад и изучить основные предположения, лежащие в основе этого исследования. Являются ли политические пользователи, которых они выбрали, репрезентативными для всех политических пользователей Reddit? Можем ли мы (и должны ли) строить модели политической классификации? Мы проверили, как различные определения политических пользователей обобщаются на поведение других пользователей и на вывод о политической склонности.

Кроме того, мы изучили, как политические пользователи взаимодействуют друг с другом, и обнаружили, что они более токсичны, чем другие пользователи. Мы также обнаружили пользователей-политиков, которые постоянно меняют принадлежность, публикуя сообщения как от консерваторов, так и от либералов. Мы показываем, что эти пользователи являются наиболее спорными из всех, действуют недобросовестно, чаще затрагивая политику, и с большей вероятностью будут забанены, приостановлены или удалены.

Набор данных собран с Reddit и состоит из всех англоязычных комментариев с декабря 2005 года по декабрь 2019 года. Полностью статью можно прочитать здесь.

Ключевые выводы

  • Выбор того, как вы определяете и выбираете политических пользователей, оказывает значительное влияние на поведенческие исследования. Политические пользователи — это гетерогенное сообщество, которое ведет себя по-разному в зависимости от того, как они определены.
  • Создать классификатор политической принадлежности сложно, и они в лучшем случае неточны.
  • Есть плохие актеры, которые притворяются членами обеих политических партий и действуют как провокаторы. Они публикуются постоянно и являются наиболее спорными. Плохие актеры могут испортить поведенческие исследования и модели классификации.
  • Политические пользователи более токсичны, чем другие, а дискуссии в политических сабреддитах в целом более токсичны.

Оглавление

Введение

Интернет-сообщества — это активные пространства для политических дискуссий и взаимодействия между сообществами. Исследователи изучили, как эти политические пространства и их пользователи влияют на реальную политику, прогнозируют будущие политические результаты, повышают политическую активность в автономном режиме и даже поляризуют мнения. Все это зависит от знания политической принадлежности пользователей.

Исследования политического поведения в социальных сетях исходят из предположения, что политические пристрастия могут быть надежно идентифицированы. Известно, что определение политических взглядов является сложной проблемой, особенно для центристских или аполитичных пользователей, которые нечасто выражают политические убеждения. Легко предсказать, за кого ILoveHillary будет голосовать на выборах 2016 года, но не все люди в Интернете сообщают о своей принадлежности, а те, кто это делает, не всегда так откровенны. Этот недостаток данных потенциально ограничивает масштабные исследования политической активности. В результате значительная работа была сосредоточена на установлении принадлежности для повышения репрезентативности данных.

Несомненно, существуют этические проблемы с предсказанием политической принадлежности. Например, пользователь может быть неправильно обозначен и плохо относиться к его предполагаемым убеждениям. Важный вывод этого исследования заключается в том, что модели логического вывода в лучшем случае обеспечивают умеренную производительность и, вероятно, будут ненадежными на практике. Мы надеемся, что отсутствие универсальной модели сдерживает использование моделей логического вывода на Reddit в будущем. Наша работа направлена ​​на то, чтобы осветить проблему неточно маркированных и предвзятых наборов данных в вычислительных исследованиях в области социальных наук, которые часто несправедливо ощущаются в виде вреда, наносимого ниже по течению.

Определение политической принадлежности

Политическая принадлежность представляет собой сложное описание, основанное на ценностях и особых интересах человека. Хотя в некоторых исследованиях предпринимались попытки вывести непрерывные значения по всему спектру, в целом использовались бинарные метки, т. е. консервативные или либеральные. Мы приняли бинарную консервативность и либеральность, потому что основное внимание в этом конкретном исследовании уделяется политике США, а также потому, что мы хотели проверить предположения предыдущей работы.

Мы использовали эти три источника политических пользователей, потому что они использовались в предыдущих поведенческих исследованиях (каждый из них использует один). Мы хотели знать, обобщаются ли их исследования за пределами пользователей, на которых они проводили свои эксперименты.

  1. Flaired Users. Некоторые политические сабреддиты позволяют пользователям отображать чутье рядом со своим именем пользователя. Например, пользователь, комментирующий в сабреддите r/Conservative, может выбрать «республиканец Рейгана» или «сторонник Трампа», что указывает на консервативную политическую склонность.
  2. Самодекларации — пользователи, которые заявляют о своей политике в комментариях. Например. «Я голосую только за демократов». Мы использовали выбранное количество шаблонов регулярных выражений и проверили сбор результатов после публикации.
  3. Членство в сообществе. В Reddit есть несколько сообществ, связанных с политическими идеологиями. Участие в политических сабреддитах может служить неявным сигналом принадлежности. Например, если пользователь часто комментирует в r/Conservative, ему может быть присвоен ярлык «Консервативный». Мы удалили пользователей, которые размещали сообщения в нескольких сообществах по всему политическому спектру, и исключили квазиполитические сабреддиты, такие как r/The_Donald.

Всего мы выявили 573 829 политических пользователей. Вот разбивка по источникам.

Членство в сообществе является крупнейшим источником политических пользователей и в основном состоит из консерваторов. Учитывая репутацию Reddit с либеральной предвзятостью, этот перекос имеет важное значение для последующих исследований только этих пользователей. Мы также заметили, что почти половина пользователей сигнализирует о своей политике одним и тем же способом, что говорит о том, что эти источники достоверной информации различны. Эти различные источники информации предлагают дополнительные способы распознавания убеждений.

Учитывая эти три источника достоверной информации, можем ли мы предсказать политическую принадлежность пользователя?

Классификация политической принадлежности

Было много попыток классифицировать политическое поведение в Интернете, и в частности на Reddit. Проблема с предыдущими методами заключается в том, что они используют единственный источник информации в качестве истинной истины (например, одаренные пользователи), который может не представлять моделируемые политические партии.

Нашей целью было проверить, насколько хорошо широкий набор подходов работает для классификации политической принадлежности. Мы также хотели увидеть, насколько хорошо каждый подход и источник правды о политической почве применим к другим группам пользователей.

Модели

Мы упростили задачу до задачи бинарной классификации (т. е. консервативной или либеральной) и выбрали три модели классификации для тестирования.

Классификатор текста

Некоторые темы политически ориентированы и могут выявить склонность пользователя, например, обсуждение прав на оружие, окружающей среды и т. д. Чтобы сделать вывод об аффилиации по комментариям пользователя, мы обучили модель RoBERTa на комментариях, сделанных каждым пользователем, исключая любые заявления, которые они делают в явной форме. самостоятельно определить свою принадлежность. Модель делает прогноз для каждого комментария, и мы берем среднее значение прогнозов для выбранных комментариев в качестве окончательной метки.

Классификатор имени пользователя

Имена пользователей могут раскрывать некоторые аспекты личности, например, Hillary4Prez указывает на либеральные взгляды. Чтобы предсказать принадлежность по именам, мы обучили двунаправленный LSTM на основе символов.

Поведенческий классификатор

Поведение пользователей может быть сильным индикатором принадлежности, поскольку люди участвуют в политических или политически смежных сообществах (например, защита окружающей среды). Мы создали модель user2subreddit, аналогичную word2vec, которая моделирует взаимодействие пользователей с субреддитами. Мы добавили отдельный линейный слой, чтобы предсказывать политическую принадлежность по встраиванию пользователя, если мы знаем его политику.

В отличие от текстового классификатора, поведенческая модель фиксирует участие пользователей в политически аффилированных сообществах, даже если пользователь никогда явно не заявляет о своей принадлежности в комментариях. Основное различие между поведенческим и текстовым классификаторами заключается в том, что поведенческий классификатор фиксирует, ассоциируется ли пользователь с группами (субреддитами), которые являются политически аффилированными (например, права на оружие или защиту жизни для консервативных пользователей), тогда как текстовый классификатор фиксирует, связаны ли пользователь говорит что-то, что раскрывает его политику.

Результаты классификации

В целом, классификатор текста показал лучшие результаты с показателем AUC 60,63 для всех данных.

Короче говоря, ни одна из моделей не является обобщенной. Между моделями, обученными на одном наборе пользователей, но протестированными на другом, существует большая разница в оценках. Что указывает на то, что эти пользователи просто ведут себя по-разному.

Есть и другие причины, по которым так трудно предсказать аффилиацию в широком смысле:

  • Пользователи в центре, которые не сильно присоединяются к какой-либо одной партии
  • Аполитичные пользователи, которые мимоходом упоминают свою политику и в основном используют Reddit для других целей, например, для просмотра фотографий кошек.
  • Форма бинарной классификации не подходит для многих пользователей. Например, пользователь может быть социально консервативным, но экономически либеральным.

Итак, если ни одна из моделей не обобщает, что делает каждую группу политических пользователей такими разными?

Характеристика политического поведения

Пользователи, которые по-разному заявляют о своих политических убеждениях, также ведут себя по-разному?

Политические пользователи появились недавно

Мы проанализировали поведенческие различия между политическими и неполитическими пользователями, используя случайную выборку из 10 000 пользователей из каждой категории и 10 000 неполитических пользователей. Для каждой категории мы измерили возраст их учетных записей, взглянув на время между их первым и последним комментарием.

В среднем аккаунты неполитических пользователей почти в два раза старше политических пользователей, а у консервативных пользователей была самая короткая продолжительность активности. Средняя продолжительность жизни консервативных пользователей была на целый год меньше, чем у их либеральных коллег. Поскольку пользовательская база Reddit значительно выросла с момента его создания — особенно с притоком политических пользователей в связи с выборами в США в 2016 году — наши результаты указывают на необходимость признать политических и неполитических пользователей разнородными группами.

Есть пузыри, но также и кросс-аффилированные сообщества

Консерваторы и либералы, как известно, действуют в разных онлайн-пузырях. Мы проверили, есть ли у разных групп внутри организации отдельные пузыри.

  • Как и ожидалось, некоторые консервативные и либеральные пользователи участвуют в пузырьковых пространствах с пользователями преимущественно одной принадлежности. Удивительно, но некоторые кластеры демонстрируют сильно смешанную принадлежность, что указывает на то, что Reddit не полностью поляризован, и некоторые пользователи регулярно взаимодействуют между собой.
  • В зависимости от типа пользователя существует несколько микропузырьков, в которых пользователи могут не взаимодействовать с другими пользователями своей принадлежности. Распространение информации зависит от типа политического пользователя.

Являются ли политические пользователи более токсичными?

Известно, что политические дискуссии бывают жаркими, а онлайн-дискуссии на политические темы более невежливы и агрессивны, чем на неполитические темы. Отчасти политические темы становятся все более морализаторскими, где дискуссии больше связаны с личностью человека. Атака на чью-то политику воспринимается как атака на самого человека.

Reddit позволяет сообществам обсуждать политические темы с единомышленниками, но также предоставляет общие пространства как для политических, так и для неполитических тем для всех. Мы проверили, становятся ли эти обсуждения более невежливыми из-за политических деятелей или из-за самой темы. Токсичность определяется как сообщения, содержащие оскорбления, угрозы или ненормативную лексику. Мы нашли три ключевых вывода.

  1. Обсуждение в политических сообществах гораздо более токсично, что позволяет предположить, что эти темы являются основным источником повышенной враждебности.
  2. Мы обнаружили повышенную токсичность, особенно при взаимодействии между пользователями из разных организаций. Консервативные пользователи получают более токсичные ответы, но они также более токсичны, когда отвечают либеральным пользователям по сравнению со своими коллегами-консерваторами. Удивительно, но пользователи менее агрессивны, когда оставляют комментарии в сообществе, где видны политические мотивы, даже если сообщество политически смешанное.
  3. Существуют явные поведенческие различия между тремя разными группами пользователей. Во всем Reddit люди, которые активно участвуют в политически аффилированных сабреддитах одной партии, гораздо более токсичны в своих взаимодействиях. Но те, кто участвует в сообществах, основанных на чутье, или явно заявляет о своей принадлежности в комментарии, гораздо менее токсичны.

Наши результаты указывают на важность явного признания и моделирования различий в том, как пользователи присоединяются к себе, поскольку этот выбор имеет значительные последствия для поведенческих исследований.

Что вызывает токсичность?

Мы знаем, что дискуссии в политических сообществах гораздо более токсичны. Но что вызывает токсичность? Чтобы проверить враждебность на основе принадлежности, мы построили модель линейной регрессии со смешанными эффектами для оценки токсичности ответа на комментарий.

На сегодняшний день самым большим предиктором токсичности был комментарий родителей. Если комментарий, на который отвечает пользователь, является токсичным, он, скорее всего, ответит тем же. После родительского комментария вторым по величине предиктором было то, происходило ли обсуждение в политическом сабреддите.

С другой стороны, наглядность сыграла наибольшую роль в снижении токсичности комментариев пользователей. Они с меньшей вероятностью отреагируют агрессивно, если их политическая принадлежность выставлена ​​напоказ.

В поисках троллей

Учитывая рост числа троллей и других злоумышленников в социальных сетях, мы задались вопросом, есть ли пользователи, принадлежащие к обоим политическим лагерям? Как оказалось, есть тысячи пользователей, которые утверждают, что они и демократы, и республиканцы. Являются ли они русскими троллями или скучающими подростками, мы хотели узнать больше.

Первый вопрос, который мы задали, заключался в следующем: являются ли это подлинными изменениями в политических убеждениях? Хотя однозначного ответа нет, мы проверили время между противоречивыми заявлениями политических партий. Например, если на одной неделе у пользователя есть республиканское чутье, а на следующей — демократическое, мы предполагаем, что он действует недобросовестно. Мы выбрали 90 дней как минимальное время между сменой политических партий. Всего таких пользователей было более 5500!

В среднем они комментируют 266 раз в месяц по сравнению с 82 у всех других политических пользователей и особенно активны в политических сабреддитах.

В целом эти пользователи публикуют сообщения чаще, они более токсичны, участвуют в основном в политических сабреддитах и ​​имеют 29%-й шанс, что их учетные записи будут заблокированы или удалены. Более того, в случае пропажи, эти двуличные пользователи бросают вызов моделям политической классификации и поведенческим исследованиям.

Заключение и будущая работа

Социальные сети изобилуют политической активностью, и исследования этих политических пространств зависят от точного измерения политических пользователей.

Выбор того, как определяются политические пользователи — доказательства, используемые для установления истины на местах, — имеет существенные последствия для последующих моделей и анализов. В частности, группы пользователей из разных определений ведут себя по-разному, и модели, обученные для одного типа пользователей, не обязательно обобщаются на другие группы. Некоторые другие ключевые выводы из этого проекта:

  • Политические пользователи сами вызывают враждебность на платформе, а консервативные пользователи подвергаются большей токсичности.
  • Небольшая, но очень активная группа плохих актеров одновременно заявляют о разных связях и являются заметным источником токсичности и противоречивости на платформе.

Будущая работа может включать расширение определения политических пользователей и тестирование подходов гибридных моделей для использования дополнительной информации.

Модели, данные и код для этого исследования можно найти по адресу https://github.com/davidjurgens/ reddit-political-affiliation.

У нас есть более крутые результаты в полной бумаге.