Влияние лингвистического выбора слов в новостных статьях на наше общество

Во всем мире случается и хорошее, и плохое, и мы узнаём только то, что подвергается нам. И это главная обязанность СМИ. Но большая ответственность этих СМИ заключается в том, как они доносят контент до людей.

Контент ответственного СМИ должен быть оригинальным, непредвзятым, свободным от преувеличений и должен быть очень деликатным в обращении с эмоциями своих читателей и зрителей. Одна и та же история может быть рассказана по-разному, и эти разные способы определенно могут вызвать разные эмоции у читателей.

Известно, что мы становимся теми, кто мы есть, благодаря тому, что говорим и читаем. Чтение истории, наполненной положительными словами, заставит нас чувствовать себя более позитивно, и наоборот. Таким образом, формулировки контента определенно играют такую же роль, как и сам контент.

Этот проект направлен на то, чтобы выяснить, как некоторые крупные СМИ в США придают большое значение формулировкам своего контента. Ответ позволит читателям мудро выбрать свой ежедневный источник новостей, который действительно заботится о своих читателях.

Подробную информацию см. в разделе "Подробные исследовательские ресурсы".

Предположения/Целевая аудитория:

Наша целевая аудитория склонна ко ВСЕМ статьям, опубликованным на главной странице.
Данные были удалены из ресурсов в одно и то же время (поскольку они регулярно обновляются).
Для этого исследования рассматривается только веб-рынок новостей США.
CNN, Foxnews, nytimes, huffingtonpost, reuters являются ведущими новостными веб-сайтами, рассматриваемыми на основе количества уникальных посетителей, полученного в результате исследования.
В нашей выборке учитываются только статьи, опубликованные на этих веб-сайтах в 10:00 (CST).

1) Фаза извлечения/подготовки данных:

Данные собираются с помощью скрипта, использующего Newspaper3K API. Скрипт предназначен для сбора всех статей, опубликованных в 10:00 (CST) на вышеупомянутой домашней странице новостей. Вот образец изображения нескольких статей, опубликованных 17.10.2017, 10:00 на Reuters.com.

Затем я преобразовал этот необработанный текст в формат CSV, разделив его на столбцы (как показано ниже) для удобства изучения.

Данные в виде CSV-файла содержат следующие столбцы:

TITLE: название статьи.
РЕЗЮМЕ: первые несколько строк текста статьи.
ТЕКСТ: полный текст внутри статьи.
URL: веб-ссылка на статью.
KEYWORDS: важные слова в статье.

Также следует отметить, что все статьи, опубликованные на их веб-странице, не обязательно должны быть от их собственных редакторов новостей. Например, статья Reuters размещена на главной странице HuffingtonPost.com.

2) Этап предварительной обработки/очистки:

Моя забота состоит в том, чтобы проанализировать только текстовое содержание статьи. Таким образом, токенизируются только текстовые (из текстового столбца CSV-файла) данные.

Основная проблема с этими миллиардами и миллиардами контента заключается в том, что большая часть из них не имеет отношения к нашему анализу. Итак, мы выполняем предварительную обработку языка, а затем создаем файл формата JSON для хранения всего этого токенизированного словарного содержимого для более быстрого доступа только к соответствующему содержимому токенизированных терминов для нашего этапа анализа.

3) Этап анализа/построения модели:

Давайте проверим распределение отрицательных слов (слов с отрицательной коннотацией), как показано ниже. Медиа-дом с наименьшим распространением этих негативных слов — это Foxnews, за которым следует The New York Times. Они доносят контент более оптимистично, чем их коллеги. Таким образом, наш чистый балл рассчитывается по уравнению:

Чистая отрицательная оценка = ∑ отрицательных выражений в СМИ × оценка настроений

Однако, чтобы сравнение было более объективным, нам также необходимо проверить весь словарный запас статьи, включая употребление как положительных, так и отрицательных слов. Было обнаружено, что содержание статей в Foxnews БОЛЬШЕ, чем в Newyork Times. Поэтому, чтобы провести справедливый анализ, мы факторизуем его с помощью нормализации. Таким образом, вводится нормализованная оценка!

Нормализованная оценка — это чистая оценка тональности всех статей по отношению к общему количеству использованных терминов во всех статьях за день (которая зависит от каждого СМИ).

Чистая нормализованная оценка = ∑ (терминов в день * оценка тональности) ∕ Общее количество терминов

Вывод:

Как видно из приведенного выше графика, мы можем сделать вывод, что Нью-Йорк таймс играет важную роль не только в передаче новостей, но и в здоровой форме (сравнительно более оптимистичной). Таким образом, я рекомендую New York Time для тех специфических целевых пользователей сети, которые просто хотят иметь хороший вкус ежедневных новостей.

По словам доктора Леры Бородицкой, людям нравится думать, что они объективны и принимают решения на основе цифр. Они хотят верить, что они логичны. Но на самом деле они находятся под влиянием метафор.

Подробные исследовательские ресурсы:

Как слова, которые мы используем, влияют на то, как мы думаем.
Согласно новому исследованию стэнфордских психологов. Говорят, ваше мышление можно изменить даже одним словом.
Существует известная концепция Закона притяжения, написанная Рондой Бирн в ее книге Секрет. Он говорит, что мы становимся теми, кто мы есть, благодаря тому, что мы говорим!
Лера Бородицкая: Как язык формирует наше мышление.

Будущая область:

Увеличение размера выборки.
Расширение спектра целевой аудитории.
Построение более конкретной системы подсчета словесных коннотаций.
Какую роль СМИ играют в развитии разных стран (например, в США, Индии, Сингапуре).

Заключительные замечания. Все собранные и используемые данные открыты для доступа любого лица в соответствии с настоящей Лицензией.