Во всем мире случается и хорошее, и плохое, и мы узнаём только то, что подвергается нам. И это главная обязанность СМИ. Но большая ответственность этих СМИ заключается в том, как они доносят контент до людей.
Контент ответственного СМИ должен быть оригинальным, непредвзятым, свободным от преувеличений и должен быть очень деликатным в обращении с эмоциями своих читателей и зрителей. Одна и та же история может быть рассказана по-разному, и эти разные способы определенно могут вызвать разные эмоции у читателей.
Известно, что мы становимся теми, кто мы есть, благодаря тому, что говорим и читаем. Чтение истории, наполненной положительными словами, заставит нас чувствовать себя более позитивно, и наоборот. Таким образом, формулировки контента определенно играют такую же роль, как и сам контент.
Этот проект направлен на то, чтобы выяснить, как некоторые крупные СМИ в США придают большое значение формулировкам своего контента. Ответ позволит читателям мудро выбрать свой ежедневный источник новостей, который действительно заботится о своих читателях.
Подробную информацию см. в разделе "Подробные исследовательские ресурсы".
Предположения/Целевая аудитория:
- Наша целевая аудитория склонна ко ВСЕМ статьям, опубликованным на главной странице.
- Данные были удалены из ресурсов в одно и то же время (поскольку они регулярно обновляются).
- Для этого исследования рассматривается только веб-рынок новостей США.
- CNN, Foxnews, nytimes, huffingtonpost, reuters являются ведущими новостными веб-сайтами, рассматриваемыми на основе количества уникальных посетителей, полученного в результате исследования.
- В нашей выборке учитываются только статьи, опубликованные на этих веб-сайтах в 10:00 (CST).
1) Фаза извлечения/подготовки данных:
Данные собираются с помощью скрипта, использующего Newspaper3K API. Скрипт предназначен для сбора всех статей, опубликованных в 10:00 (CST) на вышеупомянутой домашней странице новостей. Вот образец изображения нескольких статей, опубликованных 17.10.2017, 10:00 на Reuters.com.
Затем я преобразовал этот необработанный текст в формат CSV, разделив его на столбцы (как показано ниже) для удобства изучения.
Данные в виде CSV-файла содержат следующие столбцы:
- TITLE: название статьи.
- РЕЗЮМЕ: первые несколько строк текста статьи.
- ТЕКСТ: полный текст внутри статьи.
- URL: веб-ссылка на статью.
- KEYWORDS: важные слова в статье.
Также следует отметить, что все статьи, опубликованные на их веб-странице, не обязательно должны быть от их собственных редакторов новостей. Например, статья Reuters размещена на главной странице HuffingtonPost.com.
2) Этап предварительной обработки/очистки:
Моя забота состоит в том, чтобы проанализировать только текстовое содержание статьи. Таким образом, токенизируются только текстовые (из текстового столбца CSV-файла) данные.
Основная проблема с этими миллиардами и миллиардами контента заключается в том, что большая часть из них не имеет отношения к нашему анализу. Итак, мы выполняем предварительную обработку языка, а затем создаем файл формата JSON для хранения всего этого токенизированного словарного содержимого для более быстрого доступа только к соответствующему содержимому токенизированных терминов для нашего этапа анализа.
3) Этап анализа/построения модели:
Давайте проверим распределение отрицательных слов (слов с отрицательной коннотацией), как показано ниже. Медиа-дом с наименьшим распространением этих негативных слов — это Foxnews, за которым следует The New York Times. Они доносят контент более оптимистично, чем их коллеги. Таким образом, наш чистый балл рассчитывается по уравнению:
Чистая отрицательная оценка = ∑ отрицательных выражений в СМИ × оценка настроений
Однако, чтобы сравнение было более объективным, нам также необходимо проверить весь словарный запас статьи, включая употребление как положительных, так и отрицательных слов. Было обнаружено, что содержание статей в Foxnews БОЛЬШЕ, чем в Newyork Times. Поэтому, чтобы провести справедливый анализ, мы факторизуем его с помощью нормализации. Таким образом, вводится нормализованная оценка!
Нормализованная оценка — это чистая оценка тональности всех статей по отношению к общему количеству использованных терминов во всех статьях за день (которая зависит от каждого СМИ).
Чистая нормализованная оценка = ∑ (терминов в день * оценка тональности) ∕ Общее количество терминов
Вывод:
Как видно из приведенного выше графика, мы можем сделать вывод, что Нью-Йорк таймс играет важную роль не только в передаче новостей, но и в здоровой форме (сравнительно более оптимистичной). Таким образом, я рекомендую New York Time для тех специфических целевых пользователей сети, которые просто хотят иметь хороший вкус ежедневных новостей.
По словам доктора Леры Бородицкой, людям нравится думать, что они объективны и принимают решения на основе цифр. Они хотят верить, что они логичны. Но на самом деле они находятся под влиянием метафор.
Подробные исследовательские ресурсы:
- Как слова, которые мы используем, влияют на то, как мы думаем.
- Согласно новому исследованию стэнфордских психологов. Говорят, ваше мышление можно изменить даже одним словом.
- Существует известная концепция Закона притяжения, написанная Рондой Бирн в ее книге Секрет. Он говорит, что мы становимся теми, кто мы есть, благодаря тому, что мы говорим!
- Лера Бородицкая: Как язык формирует наше мышление.
Будущая область:
- Увеличение размера выборки.
- Расширение спектра целевой аудитории.
- Построение более конкретной системы подсчета словесных коннотаций.
- Какую роль СМИ играют в развитии разных стран (например, в США, Индии, Сингапуре).
Заключительные замечания. Все собранные и используемые данные открыты для доступа любого лица в соответствии с настоящей Лицензией.