Узнайте, как собирать обзоры для приложений Android и использовать эту информацию для создания набора данных для анализа настроений.

TL; DR. Узнайте, как создать набор данных для анализа настроений, проанализировав отзывы пользователей для приложений Android. Вы конвертируете приложение и просматриваете информацию во фреймы данных и сохраняете их в файлах CSV.



Вы научитесь:

  • Установите цель и критерии включения для вашего набора данных
  • Получайте реальные отзывы пользователей, очищая Google Play
  • Используйте Pandas для преобразования и сохранения набора данных в файлы CSV.

Настраивать

Установим необходимые пакеты и настроим импорт:

Цель набора данных

Вы хотите получать отзывы о своем приложении. И отрицательные, и положительные - это хорошо. Но отрицательный может выявить отсутствующие критические функции или простои вашего сервиса (когда это происходит гораздо чаще).

К счастью для нас, в Google Play есть множество приложений, обзоров и оценок. Мы можем собирать информацию о приложении и отзывы с помощью пакета google-play-scraper.

Вы можете выбрать множество приложений для анализа. Но разные категории приложений содержат разные аудитории, специфические особенности предметной области и многое другое. Начнем с простого.

Нам нужны приложения, которые существуют какое-то время, поэтому мнения собираются органически. Мы хотим максимально смягчить рекламные стратегии. Приложения постоянно обновляются, поэтому время проверки является важным фактором.

В идеале вам нужно собрать все возможные обзоры и поработать с ними. Однако в реальном мире данные часто ограничены (слишком большие, недоступные и т. Д.). Итак, мы сделаем все, что в наших силах.

Давайте выберем несколько приложений, которые соответствуют критериям из категории Производительность. Мы воспользуемся AppAnnie, чтобы выбрать некоторые из лучших приложений в США:

Сбор информации о приложении

Давайте проанализируем информацию для каждого приложения:

У нас есть информация по всем 15 приложениям. Давайте напишем вспомогательную функцию, которая немного лучше печатает объекты JSON:

Вот пример информации о приложении из списка:

Он содержит много информации, включая количество оценок, количество обзоров и количество оценок для каждой оценки (от 1 до 5). Давайте проигнорируем все это и посмотрим на их красивые значки:

Мы сохраним информацию о приложении на будущее, преобразовав объекты JSON в фрейм данных Pandas и сохранив результат в файл CSV:

Очистка обзоров приложений

В идеальном мире мы получили бы все отзывы. Но их много, и мы собираем данные. Это было бы не очень вежливо. Что нам делать?

Мы хотим:

  • Сбалансированный набор данных - примерно одинаковое количество отзывов для каждой оценки (1–5).
  • Репрезентативная выборка отзывов для каждого приложения

Мы можем удовлетворить первое требование, используя опцию пакета очистки для фильтрации оценки обзора. Во-вторых, мы отсортируем отзывы по степени полезности, которая, по мнению Google Play, является наиболее важной. На всякий случай тоже получим подмножество из новейших:

Обратите внимание, что мы добавляем идентификатор приложения и порядок сортировки для каждого отзыва. Вот пример для одного:

repliedAt и replyContent содержат ответ разработчика на обзор. Конечно, их может не хватать.

Сколько отзывов о приложениях мы получили?

15750

Сохраним отзывы в файл CSV:

Резюме

Отличная работа! Теперь у вас есть набор данных с более чем 15 тысячами отзывов пользователей из 15 приложений для повышения производительности. Конечно, можно сойти с ума и получить гораздо больше.



Вы научились:

  • Установите цели и ожидания для вашего набора данных
  • Очистите информацию о приложении Google Play
  • Очистите отзывы пользователей о приложениях Google Play
  • Сохраните набор данных в файлы CSV.

Далее мы собираемся использовать отзывы для анализа настроений с помощью BERT. Но сначала нам нужно провести предварительную обработку текста!

использованная литература

Первоначально опубликовано на https://www.curiousily.com.