Узнайте, как собирать обзоры для приложений Android и использовать эту информацию для создания набора данных для анализа настроений.
TL; DR. Узнайте, как создать набор данных для анализа настроений, проанализировав отзывы пользователей для приложений Android. Вы конвертируете приложение и просматриваете информацию во фреймы данных и сохраняете их в файлах CSV.
Вы научитесь:
- Установите цель и критерии включения для вашего набора данных
- Получайте реальные отзывы пользователей, очищая Google Play
- Используйте Pandas для преобразования и сохранения набора данных в файлы CSV.
Настраивать
Установим необходимые пакеты и настроим импорт:
Цель набора данных
Вы хотите получать отзывы о своем приложении. И отрицательные, и положительные - это хорошо. Но отрицательный может выявить отсутствующие критические функции или простои вашего сервиса (когда это происходит гораздо чаще).
К счастью для нас, в Google Play есть множество приложений, обзоров и оценок. Мы можем собирать информацию о приложении и отзывы с помощью пакета google-play-scraper.
Вы можете выбрать множество приложений для анализа. Но разные категории приложений содержат разные аудитории, специфические особенности предметной области и многое другое. Начнем с простого.
Нам нужны приложения, которые существуют какое-то время, поэтому мнения собираются органически. Мы хотим максимально смягчить рекламные стратегии. Приложения постоянно обновляются, поэтому время проверки является важным фактором.
В идеале вам нужно собрать все возможные обзоры и поработать с ними. Однако в реальном мире данные часто ограничены (слишком большие, недоступные и т. Д.). Итак, мы сделаем все, что в наших силах.
Давайте выберем несколько приложений, которые соответствуют критериям из категории Производительность. Мы воспользуемся AppAnnie, чтобы выбрать некоторые из лучших приложений в США:
Сбор информации о приложении
Давайте проанализируем информацию для каждого приложения:
У нас есть информация по всем 15 приложениям. Давайте напишем вспомогательную функцию, которая немного лучше печатает объекты JSON:
Вот пример информации о приложении из списка:
Он содержит много информации, включая количество оценок, количество обзоров и количество оценок для каждой оценки (от 1 до 5). Давайте проигнорируем все это и посмотрим на их красивые значки:
Мы сохраним информацию о приложении на будущее, преобразовав объекты JSON в фрейм данных Pandas и сохранив результат в файл CSV:
Очистка обзоров приложений
В идеальном мире мы получили бы все отзывы. Но их много, и мы собираем данные. Это было бы не очень вежливо. Что нам делать?
Мы хотим:
- Сбалансированный набор данных - примерно одинаковое количество отзывов для каждой оценки (1–5).
- Репрезентативная выборка отзывов для каждого приложения
Мы можем удовлетворить первое требование, используя опцию пакета очистки для фильтрации оценки обзора. Во-вторых, мы отсортируем отзывы по степени полезности, которая, по мнению Google Play, является наиболее важной. На всякий случай тоже получим подмножество из новейших:
Обратите внимание, что мы добавляем идентификатор приложения и порядок сортировки для каждого отзыва. Вот пример для одного:
repliedAt
и replyContent
содержат ответ разработчика на обзор. Конечно, их может не хватать.
Сколько отзывов о приложениях мы получили?
15750
Сохраним отзывы в файл CSV:
Резюме
Отличная работа! Теперь у вас есть набор данных с более чем 15 тысячами отзывов пользователей из 15 приложений для повышения производительности. Конечно, можно сойти с ума и получить гораздо больше.
Вы научились:
- Установите цели и ожидания для вашего набора данных
- Очистите информацию о приложении Google Play
- Очистите отзывы пользователей о приложениях Google Play
- Сохраните набор данных в файлы CSV.
Далее мы собираемся использовать отзывы для анализа настроений с помощью BERT. Но сначала нам нужно провести предварительную обработку текста!
использованная литература
Первоначально опубликовано на https://www.curiousily.com.