В последнее время я работаю над укреплением своих знаний в области облачных вычислений (учусь на архитектора решений) и сертификата IBM Professional Data Engineering (конвейеры, склады, майнинг). Я взял двухнедельный перерыв от моего любимого Р. Однако; Я снова стал сертифицированным специалистом по облачным технологиям AWS.

Я понял, что большую часть (65 процентов) своего анализа я провожу со структурированными данными; однако мы живем в мире, который постоянно обрабатывает неструктурированные данные (80 процентов данных). Таким образом, я решил работать с неструктурированными наборами данных, в частности, с Анализом настроений (первоначально я думал о моделировании темы LDA (больше модных словечек! Машинное обучение! Больше участия!) Я решил провести быстрый Анализ настроений, потому что итерации сделали мой Последнее время пищит компьютер.

Набор данных, который я использовал для интеллектуального анализа текста и анализа настроений, был загружен с Kaggle https://www.kaggle.com/crowdflower/twitter-airline-sentiment. Р для анализа. Это исследование было направлено на определение основной причины (причин) негативного опыта клиентов с авиакомпаниями. Это нормально делать прогнозы, но прочитайте этот краткий анализ, чтобы узнать больше.

Это необходимые библиотеки для анализа текста и анализа настроений.

Импортируйте наши данные в R. Я всегда использую file.choose() для выбора файлов вручную (#избегая проблем с каталогом)

Нам нужно разложить слова в столбце; мы превращаем их в униграммы по одному токену на строку (примечание: некоторые пакеты могут использовать предложения)

Пришло время удалить ненужные стоп-слова из данных.

Многие люди говорили о «Юнайтед», и кажется, что это модное словечко. Flight, American Air и CANCELED также часто появляются.

NB: мы также можем удалить @airlines, чтобы наш анализ касался только слов после твита. Чтобы удалить 2, http, t.co, мы можем создать стоп-слова и снова использовать анти-соединение. Однако я пропускаю эту часть. Давайте посчитаем, чтобы увидеть, как эти слова распространяются для данного анализа.

Существует несколько лексиконов настроений (пакеты, загруженные настроениями, связанными со словами «bi»g», «afi»n), но для этого анализа я буду использовать NRC.

get_sentiments («nrc»)

Я собираюсь отфильтровать лексикон гнева; какие слова в твитах путешественников показывают гнев?

Кроме того, я буду использовать внутреннее соединение (представьте, что это пересечение в наборе A N B) для объединения таблиц.

Вероятной причиной гнева может быть задержка рейса. Кроме того, плохие, ужасные, деньги и гонорар находятся на первом месте в списке.

Я хочу исследовать некоторые негативные чувства.

Большинство негативных твитов связаны с задержанным! Опять задержка! Твиты также показывают, что подождите, синоним задержки, вызывает негативные последствия. Давайте рассмотрим некоторое отвращение.

Задерживать! Никто не доволен задержкой. Удивительно, но задержка становится основной причиной отрицательной обратной связи.

СТРАХ? Вы можете исследовать столько настроений, сколько захотите, в зависимости от дизайна вашей проблемы.

Задержка, вылет, плохо, пропал!!!!!

Время для создания общего облака слов

Вывод из анализа настроений о проблемах каждой авиакомпании США заключается в том, что существенной причиной неудовлетворенности клиентов являются задержки. Задержка рейсов влияет на восприятие людьми авиакомпаний и влияет на планы поездок.