На этой неделе мы провели больше экспериментов. И у нас такие же результаты, ура!

Во-первых, выбор количества тем и других параметров — очень сложное решение. Потому что все они различаются по количеству отзывов для бизнеса. Итак, мы придумали идею. Что, если мы выберем значение темы как 1, чтобы увидеть смесь и схему идей об этом конкретном бизнесе? На этой неделе мы также провели тест с Gensim, библиотекой для тематического моделирования.

Раньше у нас было 2 алгоритма для сравнения; ЛДА и НМФ. Подводя итог, разница, которую мы имели, мы можем сказать, что тематические слова LDA имеют большую дисперсию, тогда как NMF имеет гораздо меньшую. Например:

ЛДА

Тема №0:
хорошая еда | любовь к еде | стол забыть | именно любовь | ага да | стоит вечно
Тема №1:
сэндвич с рыбой | слава богу | бутерброд большой | хорошая рыба | актив место | реальный актив

НМФ

Тема №0:
сэндвич с рыбой | хорошая рыба | бутерброд большой | лучшая рыба | оседлая рыба | жена поселилась
Тема #1:
полицейский участок | правая улица | ранкин полиции | станция справа | улица ранкин | Район Ранкин

Вы видите разницу? NMF чаще использует одни и те же слова в одной и той же теме. Итак, вернемся к нашей идее. Почему бы не установить размер темы равным 1, чтобы резюмировать ресторан? Да, вы правы, LDA лучше подходит для этой идеи.

Работы этой недели

В дополнение к этому, мы сделали некоторую обзорную уборку. Мы использовали Набор инструментов для работы с естественным языком. Мы применили Лемматизацию и удалили Остановочные слова.

Для простоты этого теста мы использовали только 1000 предприятий, которые имеют более 20 отзывов и не менее 5 отрицательных или положительных отзывов. Мы разделили отзывы на две категории: положительные, имеющие более 3 звезд, и отрицательные, имеющие менее 3 звезд. И соответственно проанализированы.

Результаты

Мы использовали (1,1) и (2,2) Ngram для набора слов. Мы удаляем слова, которые не являются существительными, чтобы увидеть подлежащее. Мы получили следующие результаты:

Как мы видим, Еда — чуть ли не самая важная тема, что не так уж удивительно для ресторанов, верно? Однако если мы посмотрим на другие темы, то увидим, что Время и Услуги являются более важными темами в отрицательных отзывах. Это определяет причину негативных отзывов. Обратите внимание на количество соответствующих слов: в отрицательных разделах есть более одного слова о времени, таких как минута, час и день. В положительных разделах их меньше. слова о времени. Это также относится к Сервису.

Но как ни странно, Цена не имеет места — это самая важная тема в негативных отзывах. Это означает, что людей гораздо меньше волнует цена, если общее качество плохое. Если только еда хорошая, то дело доходит до цены. Или просто мы допустили некоторые ошибки в расчетах :) . Мы поговорим о других словах, таких как Chicken, в другой раз. Может быть, по нему мы сможем узнать предпочтения в еде, а не в городе?

«До следующей недели

На этой неделе мы провели тесты на 1000 случайно выбранных компаниях, чтобы проверить, работает ли наша идея. На следующей неделе мы проанализируем город за городом и сделаем более глубокий обзор результатов. Срок приближается, так что следите за нами, чтобы увидеть результаты!