Алгоритм Аскеладдена

Данные для изменения

Алгоритм Аскеладдена

Использование машинного обучения для понимания вмешательства в выборы

Авторы Лаура Пинтос, Рамиро Кадавид и Анна Якобсон

Часть I | Введение

Обзор

В феврале 2019 года в рамках проводимого специальным советником Робертом Мюллером расследования попыток российского правительства вмешаться в президентские выборы 2016 года министерство юстиции США обвинило 13 граждан России в незаконном вмешательстве в американские политические процессы. Обвиняемые работали на хорошо финансируемую российскую государственную «фабрику троллей», именуемую Агентством интернет-исследований (IRA), у которой, как сообщается, было 400 сотрудников (известных как «тролли»), работающих по 12 часов в сутки в невзрачном офисном здании в Санкт-Петербурге. Петербург. ИРА провела изощренную скоординированную кампанию по распространению дезинформации и посеять раздор в американской политике через социальные сети, включая Facebook, Instagram и Twitter.

Твиттер обнаружил и заблокировал тысячи этих вредоносных учетных записей, удалив миллионы твитов троллей из публичного доступа на платформе. В то время как другие новостные агентства публиковали образцы, было трудно понять полный масштаб и масштаб усилий IRA, а также детали ее стратегии и тактики. По словам Алины Поляковой, научного сотрудника по внешней политике Института Брукингса,

«Удаление контента не устраняет причиненный ущерб и мешает нам узнать, как лучше подготовиться к таким атакам в будущем».

Для решения этой проблемы и «в соответствии с нашими принципами прозрачности и улучшения понимания общественностью предполагаемых кампаний за иностранное влияние» в конце 2018 года Twitter сделал общедоступными архивы твитов и СМИ, которые, по его мнению, являются результатом потенциально поддерживаемых государством информационных операций.

Согласно брифингу Специального комитета по разведке Сената США (SSCI) в декабре 2018 года, среди приостановленных аккаунтов троллей ИРА было около 109 аккаунтов, маскирующихся под новостные организации, включая местные новостные организации США. Нашей целью в этом проекте было разработать алгоритм машинного обучения, который можно было бы реализовать для защиты Twitter от попыток манипулирования СМИ со стороны таких организаций, как IRA, а также от других действий, нарушающих Условия использования Twitter. В частности, мы хотели разработать алгоритм машинного обучения, чтобы предсказывать эти «фальшивые новости» тролльских твитов. Созданный нами алгоритм назван в честь Аскеладдена, мальчика, который перехитрил и побеждает троллей в норвежском фольклоре.

Мотивация

За исключением узко определенных границ неправомерного использования, изложенных в Правилах Твиттера, компания не несет ответственности ни за достоверность, ни за умысел сообщений своих пользователей. Это почти наверняка связано с практической проблемой мониторинга и модерации огромного и постоянно увеличивающегося объема контента. Однако этот выбор, вероятно, также носит идеологический характер; Твиттер на протяжении всей своей политики подтверждает свою поддержку свободы выражения мнений и открытого диалога. Есть много отдельных «настоящих» пользователей Твиттера, которые публикуют контент, аналогичный троллям ИРА, возможно, с аналогичными намерениями. По большей части эти пользователи соблюдают Пользовательское соглашение Twitter. Однако мы считаем, что тролли ИРА существенно отличаются от «настоящих» троллей и не должны иметь одинаковых свобод.

В том же отчете SSCI, упомянутом выше, говорится, что у IRA было четко определенное и скоординированное намерение повлиять на выборы 2016 года, демонстрируя сильное и последовательное предпочтение Дональда Трампа и негативное содержание в отношении широкого круга других кандидатов-республиканцев, включая Теда Круза, Марко Рубио. , Линдси Грэм, Джон Маккейн и Бен Карсон, а также его оппонент на всеобщих выборах Хиллари Клинтон. В твитах троллей использовалась тактика преднамеренного подавления избирателей, в том числе злонамеренное перенаправление, перенаправление поддержки кандидатов и снижение явки избирателей. То, что ИРА направлялось враждебным иностранным правительством, а ее действия осуществлялись иностранными гражданами, дает дополнительный повод для беспокойства. Главный принцип демократии - народ должен иметь возможность выбирать себе лидеров, которые могут лучше всего управлять и удовлетворять их политические потребности - нарушается любым иностранным вмешательством в выборы. Скрытое, двуличное и преднамеренно дезинформативное иностранное вмешательство, такое как вмешательство ИРА, является особым оскорблением для учреждения, основанного на общественном доверии.

Тролли «фейковых новостей», которые выдавали себя за законные новостные организации, совершали особенно вопиющее мошенничество, выдавая себя за другое лицо и манипулируя средствами массовой информации. Используя фрагментацию современной медиа-среды, тролли «фейковых новостей» превратили в оружие одну из ключевых опор демократии. Кроме того, масштабы охвата этих счетов намного превосходят большинство индивидуальных счетов. До их приостановки у 44 американских аккаунтов тролля в Twitter было 660 335 подписчиков, в среднем по 15 000 подписчиков у каждого (по сравнению со средним пользователем Twitter с менее чем 1000 подписчиков). Многие из этих учетных записей вели себя аналогичным образом, размещая ссылки на статьи и местный контент по несколько десятков раз в день. Многие другие законные пользователи, в том числе несколько высокопоставленных участников кампании Трампа (Дональд Трамп-младший, Эрик Трамп, Келлиэнн Конвей, Брэд Парскейл и Майкл Флинн), связывали или репостили материалы из этих учетных записей, узаконивая свой контент и усиливая свое влияние далеко за пределы своих последователей. Мы чувствовали, что по этим причинам тролли «фейковых новостей» заслуживают особого внимания нашего проекта.

Возможно, наиболее убедительной мотивацией для этого проекта является то, что угроза троллей остается; в отчете SSCI говорится, что есть свидетельства продолжающегося вмешательства в социальные сети. Чтобы предотвратить повторение вмешательства, которое, как мы теперь знаем, имело место во время выборов 2016 года, на будущих выборах, необходимо принять меры для активной защиты демократических институтов Соединенных Штатов.

Часть 2 | Сбор и исследование данных

«Фальшивые новости» Твиты троллей

Коллекция наборов данных IRA Twitter включает все общедоступные, не удаленные твиты и средства массовой информации для 3613 учетных записей, которые, по мнению Twitter, связаны с IRA. Твиты, удаленные этими пользователями до их приостановки (которые не включены в эти наборы данных), составляют менее 1% их общей активности.

В нашем проекте мы решили сосредоточиться на наборе данных _tweets, который включает 8 768 633 уникальных твита с мая 2009 года по июнь 2018 года. Набор данных включает 31 переменную, включая идентификационный номер твита, идентификационный номер пользователя (анонимный для пользователей у которого на момент приостановки было менее 5000 подписчиков), дескриптор пользователя Twitter (такой же, как идентификатор пользователя для анонимных пользователей), язык твита, текст твита (упоминания анонимных учетных записей были заменены анонимными идентификаторами пользователя ) и время публикации твита. После фильтрации только англоязычных твитов в наборе данных чуть менее 3 миллионов уникальных твитов (2 997 181). Эти твиты исходят от 3077 уникальных учетных записей пользователей.

Мы определили интересующий нас период как 2016–2018 годы, чтобы соответствовать временным рамкам нашего набора реальных новостей (см. Ниже). Мы также считали, что эти временные рамки представляют собой важный период эскалации политического разногласия в преддверии и после президентских выборов 2016 года.

Чтобы отделить троллей «фейковых новостей» от других троллей, мы создали подмножество на основе экранных имен пользователей, содержащих слова «Ежедневно», «Новое», «Сегодня» и «В сети». Это дало 296 949 уникальных твитов от 33 уникальных учетных записей пользователей с экранными именами, такими как TodayNYCity, ChicagoDailyNew и KansasDailyNews.

Настоящие новостные твиты

Harvard Dataverse опубликовал набор данных, содержащий идентификаторы 39 695 156 твитов, собранные из аккаунтов Twitter примерно 4500 новостных агентств (т. Е. Аккаунтов медиа-организаций, предназначенных для распространения новостей). Медийные организации включали широкий спектр СМИ, от местных газет США до иностранных телеканалов. Они были собраны в период с 4 августа 2016 г. по 20 июля 2018 г. из Twitter API.

Политика Twitter для разработчиков (соблюдение которой требуется в обмен на ключи для Twitter API) налагает ограничения на совместное использование наборов данных. Если вы делитесь наборами данных твитов, вы можете публиковать только идентификаторы твитов, но не сами твиты. Таким образом, этот набор данных содержал только идентификаторы твитов. Основываясь на этой информации, мы получили полный твит из Twitter API. Мы выбрали множество англоязычных новостных агентств по всему идеологическому спектру, включая Politico, Fox News, CNN, The Economist и MSNBC. Всего мы включили 153 188 уникальных твитов из 49 уникальных учетных записей пользователей.

Все новости

Для этого анализа мы произвольно выбрали набор данных «фальшивых новостей», чтобы получить такое же количество твитов, что и наш набор данных реальных новостных твитов. Мы объединили твиты троллей и настоящие новостные твиты, в результате чего получился объединенный набор данных из 306 376 твитов, одинаково сбалансированных между двумя классами. Мы включили текст каждого твита и его категорию («настоящий» или «тролль»). Никакой другой идентифицирующей информации не было.

Извлечение функций

Используя CountVectorizer, мы извлекли из нашего набора данных 470 051 уникальную функцию. После «https» и «co», которые на сегодняшний день являются наиболее распространенными функциями, поскольку они появляются во всех ссылках на другие твиты, многие из общих наиболее распространенных функций представляют собой стандартные английские стоп-слова, такие как «to», «the», « в »и« из ». Удивительно, но мы видим, что функция «козырь» встречается гораздо чаще в реальных новостных твитах, чем в твитах троллей, в то время как функция «новости» встречается гораздо чаще в твитах троллей, чем в настоящих новостных твитах.

Одно интересное наблюдение за нашими извлеченными функциями заключается в том, что стандартные стоп-слова, как правило, гораздо чаще встречаются в реальных новостных твитах, чем в твитах троллей. Эти слова обычно не считаются полезными в обработке естественного языка (NLP) из-за их повсеместности и отсутствия связи с конкретным предметом. Однако в этом конкретном анализе мы сравниваем класс, в котором текст предположительно в основном был написан носителями английского языка, с классом, в котором текст, хотя и на английском языке, предположительно был в основном написан носителями русского языка. Отсутствие стоп-слов, таких как определенный артикль «the», предлоги «to» и «of» и глагол «is», характерно для многих носителей английского языка, для которых английский не является родным. Например, в русском языке нет статей, поэтому носители русского языка могут испытывать трудности с этим понятием при изучении английского языка и часто пропускают стоп-слова, такие как «the». Использование предлогов в русском языке сильно отличается от использования в английском, что может привести к таким ошибкам, как путаница между стоп-словами «on» и «at» и пропуск стоп-слова «for». В русском языке также нет связок (связывающих глаголов), что может привести к пропуску таких стоп-слов, как «is», в английском языке.

Если отбросить стоп-слова, мы видим еще одно интересное отличие: из пятидесяти самых частых функций для каждого класса есть три заметных непрерывных слова, которые встречаются в реальных новостях, но не встречаются в функциях фальшивых новостей, «президент». , «Дом» и «белый». Тем не менее, есть гораздо больше непрерывных слов, которые встречаются только в функциях фейковых новостей, в том числе слова, которые могут использоваться в сенсационном контексте, такие как «полиция», «стрельба», «убит», «пожар» и «авария». ». Это может указывать на дисбаланс между национальными новостями и местными новостями в нашем наборе данных. С другой стороны, это может быть характерной чертой разных стилей твитов, когда твиты троллей могут быть более откровенно попытаться привлечь внимание читателя.

Часть 3 | Моделирование

Заимствуя концепции из анализа настроений, мы протестировали ряд различных моделей, включая наивный байесовский метод Бернулли, логистическую регрессию, ансамбль (логистическая регрессия, линейный SVC, наивный байесовский метод Бернулли, ридж и пассивный агрессивный метод), случайный лес и Doc2Vec, используя как CountVectorizer, так и Векторизатор TFIDF. Хотя наша модель ансамбля работала немного лучше, мы выбрали биграммную модель логистической регрессии CountVectorizer для дальнейшей разработки на основе ее экономичности и высокой точности.

Мы изучили различные оптимизации, включая предварительную обработку данных с использованием удаления стоп-слов, а также ряд других настраиваемых предварительных процессов и точную настройку модели на значения C, min_df и max_features. В конце концов, однако, исходная неоптимизированная модель с использованием необработанных данных обеспечила наилучшую производительность.

Часть 4 | Интерпретация модели

Наблюдение за статистическими предикторами твитов троллей «фейковых новостей» дает нам некоторое представление об их тактике.

Камуфляж

Многие твиты троллей кажутся безобидными, сосредоточенными на, казалось бы, бесспорных темах. 8 из 12 «троллейных» твитов - твитов, которые, согласно нашей модели, были троллями, - о спорте.

Путаница

Твиты троллей часто звучат как настоящие новостные твиты. Из 20 самых запутанных или неправильно предсказанных твитов 80% - это твиты троллей, ошибочно классифицированные как настоящие новости.

Вариант функции

Пятьдесят самых предсказуемых характеристик твита тролля, по-видимому, разнообразны. Однако при ближайшем рассмотрении закономерности выявляются.

Общие слова

Первый - это использование общих слов, таких как политика, новости и местное население. Оказывается, в настоящих новостных твитах не обязательно использовать такие ярлыки, чтобы рассказывать людям, что они из себя представляют - например, CNN не нужно маркировать свои твиты как новости - вы знаете, что это новости, потому что знаете CNN. . С другой стороны, тролли, похоже, используют эти ярлыки - что является логическим ходом, если вы пытаетесь убедить кого-то в том, что вы являетесь тем, кем на самом деле не являетесь.

Политические лозунги

Второй паттерн - это политические лозунги, как протрамповские, так и антихиллари. Это неудивительно; Как мы упоминали ранее, теперь было доказано, что ИРА пыталась повлиять на выборы 2016 года в пользу Трампа. Также имеет смысл, что законные новостные организации не будут использовать эти фразы.

Сирия

Более удивительна третья закономерность - преобладание слов, связанных с Сирией. Возможно, это связано с тем, что тролли активно пытались повлиять на события в Сирии, или, возможно, потому, что настоящее американское освещение событий в Сирии было довольно скудным. С другой стороны, эти твиты могли быть предназначены для европейской аудитории, поскольку в то время Сирия была более спорным вопросом в Европе.

Часть 5 | Заключение

Свидетельства, собранные после выборов 2016 года, неопровержимо показывают, что Россия вела скоординированную, профессиональную кампанию по подрыву целостности СМИ и ослаблению демократии в Соединенных Штатах. В августе 2020 года представители американской разведки публично заявили, что это вмешательство продолжается, либо в попытке помочь президенту Трампу выиграть второй срок, либо просто подорвать доверие к американской избирательной системе.

В заявлении Национального центра контрразведки и безопасности не содержится подробностей о тактике России в преддверии выборов 2020 года, они просто описываются как «распространение дезинформации в США, направленное на подрыв доверия к нашему демократическому процессу». . Но что мы действительно знаем, так это то, что виды тактики, использованные ИРА в 2016 году, могут повлиять на выборы только в том случае, если избиратели введены в заблуждение дезинформацией российских троллей. Мы глубоко надеемся, что такие проекты, как алгоритм Асклладдена, могут помочь повысить осведомленность американцев о том, как враждебные иностранные правительства могут пытаться ими манипулировать, и побудить к бдительности в поиске источников и проверке фактов информации, которую мы используем для принятия решения о голосовании.

Этот проект был создан в рамках программы Master of Information and Data Science в Школе информации Калифорнийского университета в Беркли.

Алгоритм Аскеладдена

Данные для изменения