Персонализированный рейтинг, основанный на контенте подход к моделированию цифровых медиа

Поскольку новостные сообщения обладают способностью влиять на наше восприятие событий в мире и изменять их, наш выбор потребления информации действительно важен. Рост цифровых медиа и изобилие источников в последнее время усложнили этот выбор. Разработка новых методов мониторинга СМИ важна для повышения осведомленности о широко распространенной предвзятости СМИ, которая не поддается объективному или легкому количественному измерению людьми.

По этим причинам мы разработали News Cracker, новый метод встраивания цифровых источников новостей. News Craker является результатом моей магистерской диссертации, которая была выполнена в ELCA в сотрудничестве с лабораторией LSIR EPFL. Он изучает скрытое пространство представления для новостных агентств, чтобы выделить сходство на основе контента, который они производят. Этот метод также выявляет скрытые шаблоны более высокого порядка, которые отражают редакционные принципы и тенденции идеологического выравнивания.

Сначала мы представим ключевую интуицию, лежащую в основе News Cracker: подход к теме как к проблеме персонализированного ранжирования, подобно рекомендательной системе. Затем мы продемонстрируем критерий оптимизации, архитектуру модели и ее производительность. Наконец, вторая половина статьи посвящена анализу полученного пространства для встраивания, включая оценку News Cracker как классификатора идеологического соответствия.

Проблема персонализированного ранжирования

Основная идея состоит в том, чтобы наша модель изучала неявные предпочтения источников новостей в отношении публикации контента с помощью персонализированного подхода к ранжированию. Мы предполагаем, что лексический и семантический выбор в статьях имплицитно отражает интерес к ним со стороны источников, которые в конечном итоге часто их используют. Другими словами, источник «предпочитает» одну из своих статей (aⱼ) статье из другого новостного агентства (aₖ).

Этот подход к моделированию похож на то, что делают рекомендательные системы, где пользователи (источники) неявно выражают свое предпочтение предмету (статье), покупая его. Формально эта проблема представляет собой пример Совместной фильтрации одного класса (OCCF) из неявной обратной связи с диадическими взаимодействиями вида источник sᵢ опубликовал статью aⱼ

Мы хотим оптимизировать представление источников, научившись производить точный общий порядок статей ›sᵢдля каждого издателя, где

означает, что источник sᵢ предпочитает артикль aⱼ артикулу aₖ.

Этот подход в значительной степени вдохновлен работой Д. Буржуа и Дж. Раппаз Предвзятость выбора в освещении новостей: изучение, борьба с этим, где они используют ту же идею персонализированного ранжирования, чтобы зафиксировать скрытую структуру процесса принятия решений СМИ относительно освещения событий. . Они демонстрируют тревожную тенденцию к сближению охвата после приобретения каналов у крупных медиаконгломератов.

Метод встраивания исходного кода News Cracker

Чтобы узнать наши исходные вложения, мы используем потерю Байесовского персонализированного ранжирования (BPR). Это попарный подход, при котором модель представлена тройками (sᵢ , aⱼ , aₖ ), равномерно выбранными случайным образом из корпуса статей, где sᵢ — случайный источник из исходный набор S, aⱼ — это статья, опубликованная sᵢ (положительная выборка), а aₖ — это статья не опубликована sᵢ(отрицательный образец).

В BPR мы максимизируем следующую апостериорную вероятность по обучающему набору таких троек, где Θ — параметры произвольной модели ранжирования.

Конкретно, мы можем вычислить правую часть формулы благодаря модели взаимодействия источник-статья (модель ранжирования), которая дает действительные оценки.

которые представляют вероятность того, что источник sᵢопубликует статью aⱼ. С оценкой правдоподобия из модели ранжирования мы можем определить

где H(.) обозначает ступенчатую функцию Хевисайда, а σ — сигмоидальную функцию. Наконец, с гауссовским априорным отношением к Θ, мы получаем следующий критерий максимизации

Этот подход поясняется на следующей диаграмме. Наши исходные векторы sᵢинициализируются случайным образом и оптимизируются с помощью BPR-OPT вместе со всеми другими параметрами архитектуры, которые обучаются одновременно (встраивания, модель встраивания статьи, модель встраивания исходной статьи). модель взаимодействия).

Текстовые представления и модель ранжирования

Мы получаем оценки правдоподобия из модели взаимодействия источник-статья. Во-первых, мы встраиваем статьи через архитектуру на основе LSTM, которая сочетает в себе встраивание слов, полученное с помощью FastText. Мы намеренно сохранили модель встраивания статей относительно простой (без преобразователей), чтобы более точно смоделировать отдельные лексические варианты, поскольку одной из целей проекта было понять, вызовут ли эти варианты достаточное разделение между исходными представлениями. С помощью этой модели встраивания статей мы получаем представления статей aⱼ.

Эти представления используются в модели ранжирования, которую мы определяем как модель взаимодействия источник-статья, которая выводит вероятность публикации статьи источником sᵢ. В этой части мы экспериментировали со скрытыми факторными моделями, такими как матричные факторизации, поскольку они представляют собой традиционный подход к персонализированным задачам ранжирования, но они не дали желаемых результатов. Поэтому мы выбрали архитектуру нейронной сети с прямой связью, которая, учитывая исходный вектор (sᵢ) и представление статьи (aⱼ), учится выводить показатель вероятности, который максимизирует BPR. Критерий OPT представлен выше. При этом и поскольку представление статьи aⱼ задается моделью встраивания статьи, мы можем узнать исходные векторы sᵢ.

Набор данных и оценка модели

Корпус статей, использованный во время этого проекта, был собран в контексте Инициативы Media Observatory и состоит из заголовков и корпусов статей (на английском языке), взятых из большого количества новостных ресурсов в Интернете по всему миру.

Чтобы оценить модель News Cracker, мы использовали методологию исключения пяти статей. Для каждого из 446 источников мы случайным образом отобрали 5 статей, которые не использовались и использовались в качестве положительных образцов при тестировании троек, в результате чего тестовая выборка состоит из 2230 образцов. Из оставшихся статей мы выбрали 2 000 000 триплетов, равномерно случайным образом, чтобы составить нашу обучающую выборку. Из того же пула статей, что и обучающий набор, мы выбрали 5 пар обучающих/проверочных наборов с той же методологией (5 исключений и 2 миллиона обучающих троек), чтобы получить более надежную оценку результатов.

Что касается метрик, мы используем формулировку площади под кривой ROC (AUC), которая специфична для этой попарной настройки и может также называться «попарной точностью».

Модель достигает 0,94 тестовой AUC и 0,93 проверочной AUC, доказывая, что она очень хорошо справляется с этой задачей персонализированного ранжирования.

Проанализируйте пространство для встраивания

После изучения исходных вложений (размерность 100) нам потребуются методы анализа и визуализации для интерпретации наших результатов. Во-первых, мы вычислили косинусное сходство между вложениями как меру исходного сходства, чтобы определить ближайших соседей. Во-вторых, для визуализации пространства мы применили технику уменьшения размерности T-distributed Stochastic Neighbor Embedding (t-SNE) для проецирования вложений на двумерное пространство, в котором мы применили алгоритм кластеризации DBSCAN для получения групп источников. . Полученное пространство и кластеры изображены на следующем графике:

Теперь мы покажем, что модель может легко фиксировать три фактора, характеризующих источник:

География
Новостные организации/конгломераты
Домен/редакционные правила

Мы утверждаем, что большинство областей пространства, идентифицированных с помощью DBSCAN, могут быть описаны одним из этих факторов кластеризации.

График ниже был аннотирован относительно географического положения источников. Это тривиальный отличительный фактор, который мы ожидаем найти, поскольку местные объекты (места, люди, …) часто упоминаются только источниками новостей из той же области. Эти лексические «выборы» делают исходные вложения действительно похожими, что доказывает, что наш метод встраивания учится так, как задумано. Мы видим, что группировка происходит на разных географических уровнях, от макрорегионов до отдельных городов.

Второй фактор — это владение источником/принадлежность к бренду. Если мы посмотрим на ближайших соседей нескольких источников, мы увидим четкую тенденцию.

Источники одного и того же бренда/организации, как правило, имеют очень похожие вложения, образуя группы тесно сгруппированных соседей. Мы можем идентифицировать эти подкластеры в пространстве внутри групп на основе местоположения, как показано на аннотированном графике ниже. Это показывает, что алгоритм может изучать структуру, которая выходит за рамки ожидаемых различий в содержании, и находит шаблоны высокого уровня в новостной среде.

Третий и последний четко различимый фактор представлен исходным доменом. Ниже мы видим, что кластеры возникают для источников, сообщающих о развлекательном бизнесе, науке и природе, финансах, аналитических центрах и т. д. Теперь неудивительно, что News Cracker в равной степени может группировать источники с похожими редакционные правила.

Пространство вложения, по-видимому, имеет иерархическую структуру. География представляет собой фактор верхнего уровня, в соответствии с которым источники распределяются на плоскости проекции. Затем для регионов, где у нас есть многочисленные торговые точки (в основном США), два других фактора кластеризации (бренд/организация и домен/редакционные правила) формируют большую часть оставшейся структуры, создавая подкластеры источников с четкой семантикой.

Как насчет предвзятости СМИ?

Хотя этот анализ интересен, мы хотим оценить, способен ли этот подход уловить нетривиальную структуру в экосистеме новостей и связать источники, которые разделяют схожие идеологические/политические взгляды на мировые события. Напоминаем, что этот подход полностью не контролируется с точки зрения прогнозирования предвзятости СМИ, и модель свободна от какого-либо дизайна, потенциально вызывающего предвзятость.

Чтобы определить, совпадают ли некоторые выводы с известными политическими взглядами, мы собираем явные рейтинги предвзятости для 123 наших источников в США из Рейтингов предвзятости СМИ AllSides. Этот рейтинг включает более 600 онлайн-источников новостей, почти исключительно из США, с использованием надежной методологии для определения рейтинга каждого источника. Кроме того, рейтинги в некоторой степени определяются сообществом. Это идеальный тип данных для сравнения с нашими результатами, основанными исключительно на данных. Новостные выпуски помечены одним из пяти рейтингов: Левый, Наклонный налево, Центр, Наклонный вправо, Правый.

Мы наносим подмножество (теперь помеченных) источников на нашу проекционную плоскость и кодируем их цветом в соответствии с их рейтингом предвзятости СМИ.

На первый взгляд, нет четкой структуры, вращающейся вокруг рейтингов предвзятости, но все еще есть много областей пространства, где появляются некоторые группы/регионы с одинаковыми ярлыками. Поэтому, чтобы увидеть, действительно ли News Cracker узнал что-то об идеологических предпочтениях, мы используем этот набор данных из 123 помеченных источников и их предполагаемых вложений для оценки классификатора ближайших соседей с большинством голосов (k = 12). В задаче прогнозирования точной метки (5 классов) модель достигает точности 52,03%.

Несмотря на то, что это не впечатляет, из матрицы путаницы мы видим, что модель делает разумные прогнозы и в основном путает ярлыки, которые соседствуют в политическом спектре (например, левые и бережливые левые). Поскольку такая дискретизация непрерывного идеологического спектра произвольна, мы оцениваем модель на бинарной задаче предсказания, наклоняется ли источник влево или вправо (для этого мы отбрасываем 11 источников, помеченных как «Центр»). Для этой задачи классификатор достигает точности 78,25 %. Другими словами, при наличии источника наше пространство для встраивания может помочь определить правильную (согласно AllSides) склонность почти к 4 из 5 источников новостей. Мы должны повторить, насколько сложна эта задача даже для людей. Таким образом, такая производительность заслуживает внимания и удивляет, учитывая неконтролируемый характер нашей модели.

Выводы

С помощью News Cracker мы предлагаем новый метод встраивания онлайн-источников новостей. Мы моделируем каждый источник новостей, изучая его скрытые предпочтения в отношении контента — подход, который позволяет нам идентифицировать похожие источники в отношении новостей, которые они выбирают для публикации. Анализ пространства встраивания показывает, что News Cracker способен успешно идентифицировать многие факторы, отличающие источники новостей. Вложения, кажется, в некоторой степени отражают идеологическую направленность источников новостей в определенных регионах пространства. Эта задача прогнозирования предвзятости СМИ чрезвычайно сложна даже для людей. В целом, мы можем заключить, что можно зафиксировать предпочтения источника, которые приводят к соображениям, связанным с предвзятостью, даже с помощью модели, которая не выдвигает какого-либо явного определения идеологической предвзятости.

Исследуйте пространство для встраивания с помощью этого демонстрационного интерфейса!