Анализ настроений или анализ мнений - это область обработки естественного языка, в которой мы пытаемся автоматизировать процесс понимания мнения о данном предмете из письменной или устной речи.

Формально анализ настроений или анализ мнений - это компьютерное исследование мнений, настроений, оценок, отношений, настроений и эмоций людей. Это одно из самых активных направлений исследований в области обработки естественного языка.

Огромный объем письменных данных (на разных языках) создается ежедневно через веб-сайты электронной коммерции, социальные сети, платформы вопросов-ответов и т. Д. Эти данные содержат ценную информацию и мнения пользователей. Анализ настроений стал ключевым инструментом для осмысления этих данных. Это позволило компаниям получить ключевые идеи и отзывы пользователей о своих продуктах и ​​автоматизировать все виды процессов.

На протяжении всего этого блога я в основном использую обзоры продуктов и предложения из таких обзоров в качестве примеров, чтобы представить ключевые концепции, но идеи и полученные определения являются общими и применимы ко всем формам формального и неформального текста мнений, таких как новостные статьи, твиты (Twitter сообщений), обсуждения на форумах, блоги и сообщения в Facebook, а также все виды доменов, включая социальные и политические.

Что такое аспектно-ориентированный анализ настроений (ABSA)?

Хотя за последние десять лет исследования по анализу настроений стали очень популярными, большинство компаний и практиков по-прежнему подходят к ним просто как к проблеме определения полярности на уровне предложений. На самом деле это гораздо более сложная проблема. Рассмотрим следующий обзор мобильного телефона.

Обзор A
Автор: Нитеш
«Я купил Moto G шесть месяцев назад. Камера и аккумулятор просто потрясающие. Дисплей в порядке. Однако моя девушка считает, что его нельзя носить с собой ».

Вышеупомянутый обзор содержит разные мнения (отрицательные и положительные) о мобильном телефоне Moto G. Здесь второе предложение в обзоре выражает положительное отношение к камере и батарее. Третье и четвертое предложения выражают нейтральное и отрицательное отношение к Display и Size соответственно.

Формально Мнение - это тройка (a, s, h), состоящая из
1. Аспект (a): в литературе это также называется целевой настройкой. .
2. Мнение (я): s - это настроение мнения о цели g.
3. Владелец мнения (h): h - держатель мнения (лицо или организация, которые придерживаются мнения. )

Для обзора A мнения: (Камера, позитив, Нитеш), (Аккумулятор, позитив, Нитеш), (Дисплей, нейтральный, Нитеш), (Размер, негатив, подруга Нитеша). Хотя держатель мнения (h) важен в тройке, он опущен для большинства практических и промышленных целей. В дальнейшем я использую пару мнений для обозначения пары (аспект, настроение).

Обычно при анализе настроений при обзоре продуктов можно интересоваться не только тем, говорят ли люди о продукте с положительной, нейтральной или отрицательной полярностью, но также о том, о каких конкретных аспектах или особенностях продукта говорят люди. В этом суть анализа настроений на основе аспектов.

Аспектно-ориентированный анализ тональности состоит из двух подзадач:
1. Выявление аспектов аспекта в данном обзоре.
2. Поиск тональности, соответствующей обнаруженным аспектам.

Неконтролируемый подход на основе правил для ABSA

Есть несколько моделей, которые получают пару мнений за один раз. Одна такая модель описана в этой статье. В этом документе описывается подход к ABSA, основанный на правилах. Обычно подходы, основанные на правилах, определяют набор созданных вручную правил на каком-то языке сценариев, которые определяют субъективность, полярность или предмет мнения.

Учитывая рецензию, этот подход сначала объединяет последовательные существительные, а затем применяет Совместное решение ссылок над рецензией. По сути, в предложении разрешение со-ссылки сопоставляет местоимения с существительными, на которые они ссылаются. Разрешение совместных ссылок само по себе является большой темой исследования и выходит за рамки этого блога.

Кроме того, подход использует грамматические зависимости в проверочном предложении и применяет некоторые правила зависимостей для обнаружения пар мнений. Получить грамматические зависимости довольно просто с помощью CoreNLP Parser или Stanford Parser. Грамматические зависимости выражаются тройками: {Тип отношения, Управляющий, Зависимый}.
А теперь давайте углубимся в детали. Рассмотрим следующий обзор, который я буду использовать в качестве примера предложения на протяжении всей остальной части блога.

Отзыв B
. Мне понравилось разрешение экрана, оно потрясающее для такого дешевого ноутбука.

Используя теги POS CoreNLP, мы сначала получаем теги для каждого слова в Обзоре Б. Мы объединяем последовательные слова, помеченные как Существительное (NN). Живая демонстрация CoreNLP POS Tagger доступна здесь.

Обратите внимание на то, что два последовательных слова screen и resolution имеют тег pos как Noun (NN). Итак, мы объединяем их вместе как разрешение экрана. После этого шага отзыв B становится Мне понравилось разрешение экрана, это потрясающе для такого дешевого ноутбука.

Мы используем Стэнфордский синтаксический анализатор зависимостей для генерации набора грамматических зависимостей для обзора B. Зависимости показаны ниже. (Проверьте сами)

nsubj(enjoyed-2, I-1)
ccomp(amazing-8, enjoyed-2)
det(screen-resolution-4, the-3)
dobj(enjoyed-2, screen-resolution-4)
nsubj(amazing-8, it-6)
cop(amazing-8, is-7)
root(ROOT-0, amazing-8)
case(laptop-13, for-9)
det:predet(laptop-13, such-10)
det(laptop-13, a-11)
amod(laptop-13, cheap-12)
nmod:for(amazing-8, laptop-13)

Вышеуказанные зависимости почти не требуют пояснений. Например, в зависимости dobj (enjoy-2, screen-resolution-4): тип отношения - dobj, губернатор нравится и зависимый составляет разрешение экрана.

Правила извлечения пар мнений

  • Если тип отношения - nsubj, а управляющий - поляризованное слово, тогда (Зависимый, управляющий) - пара мнений.
    например,
    Для обзора B это правило дает (это, потрясающе) как пара мнений, и мы заменяем это на разрешение экрана, благодаря разрешению совместной ссылки. Наконец, мы получаем (разрешение экрана, потрясающе) как пару мнений.
    Это правило также дает (Мне понравилось) как пара мнений, но I имеет неразрешенную совместную ссылку в текущем контексте, поэтому этой парой пренебрегают.
  • Если тип отношения - amod, а управляющий помечен как прилагательное, тогда (Зависимый, управляющий) является парой мнений.
    например,
    Для проверки B, это правило дает (портативный компьютер, дешевый) как пару мнений.
  • Если тип-отношения - dobj, а у управляющего есть тег pos как прилагательное (JJ), тогда (Зависимый, управляющий) - это пара мнений.
    например,
    Для обзора B это правило дает (разрешение экрана, понравилось) как пару мнений.

Это неплохо. Модель извлекает три пары мнений (разрешение экрана, потрясающе), (ноутбук, дешевый) и ( разрешение экрана, понравилось) из отзыва Б.

Плюсы этого подхода

  • Эта модель работает, даже если домен, к которому принадлежат документы, неизвестен.
  • Получение помеченных данных для разных доменов очень сложно и дорого. Используя этот подход, можно легко провести анализ тональности на основе аспектов, даже если у вас нет размеченных данных.
  • Этот подход также можно использовать для извлечения темы из корпуса естественного языка.

Минусы этого подхода

  • Неудачно, если предложение плохо структурировано и грамматически неверно.

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

Спасибо за чтение. Если у вас есть какие-либо вопросы, прокомментируйте их ниже. Если вам нравится этот блог, подпишитесь на меня здесь, на Medium. Я также доступен в LinkedIn.
Удачного обучения!