Анализ магазина Google Play

Как разработчики приложений могут сделать свои продукты более популярными в Google Play Store?

В магазине Google Play доступно около трех миллионов приложений, поэтому разработка приложений, которые выделяются среди конкурентов, представляет собой сложную задачу для разработчиков приложений. Чтобы выделиться на этом перенасыщенном рынке, им необходимо определить важные факторы, которые играют роль в процессе принятия решений клиентами.

Цель этого проекта - дать понимание, чтобы лучше понять потребности клиентов и, таким образом, помочь разработчикам популяризировать продукт. Поясним: «популярный» в этом проекте означает большое количество инсталляций.

Понимание данных

Набор данных для анализа Google App Store взят из Kaggle. Он имеет 10841 наблюдение (количество приложений) и 13 переменных (количество характеристик для каждого приложения). Целевая переменная - Установки (количество установок), а объясняющие переменные включают категорию, цену, рейтинги, отзывы и т. Д. В частности, Рейтинг - это непрерывная переменная со шкалой от 1 до 5.

Очистка данных

Необработанные данные содержат слишком много категориальных переменных и около 500 пропущенных значений в столбце рейтинга. Очистка данных включает следующие шаги:

Мы отбросили все наблюдения с пропущенными значениями. Хотя это означает потерю 5% данных, сложно сопоставить оценку обзора с существующими данными. Если доступны отдельные обзоры для каждого приложения, вменение возможно с помощью подхода интеллектуального анализа текста - прогнозирования недостающей оценки с помощью модели обратной регрессии.
Мы удалили столбцы «Названия приложений», «Текущая версия», «Версия Android» и «Жанры». Поскольку эта информация не так полезна в этом проекте, и «Жанры» также являются подмножеством столбца «Категория».
Мы преобразовали столбец «Последнее обновление» в количество дней с момента последнего обновления, которое было рассчитано путем вычитания его из даты при компиляции набора данных.
Мы удалили все символы «+» в столбце «Установки» и преобразовали столбец в числовые данные, взяв нижнюю границу. Аналогичным образом удалите суффиксы столбцов «Размер» и «Цена».
Мы создали новый столбец «LogInstall», чтобы уменьшить ошибку недооценки, поскольку данные в столбце «Установить» имеют широкий диапазон.

Окончательные чистые данные представлены в таблице 2.

Исследование данных

Говоря о популярности, большинство людей думают о молва. А именно, приложения с высокими рейтингами должны иметь больше установок. График 1 отображает распределение оценок, график 2 показывает взаимосвязь между двумя переменными.

В этом наборе данных средняя оценка довольно высока, около 4,3 по пятибалльной шкале. Большинство оценок сосредоточены в диапазоне (4,2,4,5).

Линия регрессии, немного направленная вверх на графике 2, показывает положительную взаимосвязь между рейтингом и установкой. Более высокий рейтинг способствует большему количеству инсталляций. Кроме того, кластеризация k-средних классифицирует различные приложения.

Приложения в Google Play Store делятся на четыре кластера:

высокие рейтинги, но низкие установки (темно-синий)
как низкий рейтинг, так и установки (красный)
обе установки со средним рейтингом (голубой)
как высокие рейтинги, так и установки (зеленый)

Стоит обратить внимание на кластер 1. Почему есть приложения с высокими рейтингами, но с низкой установкой? Похоже на маркетинговую проблему. У этих разработчиков есть отличные продукты, о которых мало кто знает. Этот вопрос будет обсуждаться позже после моделирования. Возможная причина в том, что некоторые категории, естественно, имеют низкую установку, потому что люди не часто их используют. График ниже подтверждает предположение.

Коробчатый график отсортирован по установке от самого низкого до самого высокого. Затем все приложения делятся на три группы для дальнейшего изучения. Красные линии - это точки отсечения, где происходит значительный скачок на среднем уровне установки. Группы определяются следующим образом: Группа 1 (слева): категории низкой установки, Группа 2 (в центре): категории средней установки, Группа 3: категории высокой установки. Позже процесс моделирования будет проводиться отдельно для этих трех групп, чтобы определить их соответствующие определяющие факторы для установок. Давайте взглянем на то, что схожего и различного между этими тремя группами.

График 5 показывает одну общую черту трех групп: чем реже обновляется приложение, тем меньше у него установка.

Моделирование и оценка

Чтобы определить важность различных переменных, мы применили нулевую модель, лассо, пост-лассо, случайный лес, модель линейной регрессии и модель древовидной регрессии, а затем использовали перекрестную проверку в K-кратном порядке, чтобы выбрать модель для каждой группы путем сравнения R². Поскольку мы повторили тот же процесс для трех групп. В следующей статье будет установлена группа 1 в качестве примера и интерпретирован результат.

Из графика 6 видно, что R² модели случайного леса является самым высоким, около 50%, что означает, что модель может объяснить около 50% вариаций переменных.

Аналогичным образом, таблицы 3 и 4 показывают, что Группа 2 и Группа 3 имеют самый высокий R² для модели случайного леса, с R² 41,1% и 54% соответственно. Поэтому мы сделали прогноз установки, дополнив модель случайного леса всем набором данных. Модель дает оценку того, какие переменные важны в регрессии. Она также имеет меньшую дисперсию, чем модель регрессии с одним деревом, и позволяет избежать переобучения. Ниже приведена важность переменной в группе 1, заданная моделью случайного леса.

Чем больше полезных переменных обеспечивает более высокий рост чистоты узлов, чем выше IncoNodePurity, тем более критичной становится переменная. Примечательно, что графики для трех групп очень похожи в отношении важности переменных. Как и ожидалось, для всех приложений наиболее важной переменной для прогнозирования количества установок является рейтинг, за которым следует дата последнего обновления. Цена, тип и рейтинг контента не являются важными переменными.

Развертывание

Вернемся к вопросам, которые мы задали в начале и во время исследования данных: как разработчики приложений могут сделать свои продукты более популярными в Google Play Store? Почему у некоторых приложений высокие рейтинги, но низкая загрузка? У нас есть следующие рекомендации:

Для приложений, которые в настоящее время имеют низкие рейтинги, разработчики, несомненно, должны сначала повысить свои рейтинги, либо стимулируя рейтинги, либо добавляя новые функции. Им также необходимо сократить цикл обновлений, чтобы каждое обновление улучшало качество обслуживания клиентов и вводило новые функции. Следует предоставлять стимулы для оценки, поскольку большинство клиентов не желают оценивать приложение, если у них нет лучшего / плохого опыта. Благодаря использованию маркетинговой стратегии сарафанного радио приложения станут популярными среди клиентов.

Отражение

У этого проекта есть два момента улучшения. Во-первых, поскольку в этом наборе данных не так много переменных, мы могли пропустить переменные в модели. Во-вторых, нужно учитывать количество оценок. Некоторые высокие оценки могут возникать из-за того, что мало кто оценивает приложение, что приводит к необъективному результату.

Точно так же мы должны проанализировать тональность отзывов в этой модели, чтобы уменьшить количество ошибок. Даже если количество отзывов велико, негативное отношение к ним снизит количество установок. Поэтому недостаточно просто посмотреть количество отзывов. Чтобы решить эту проблему, извлечение отзывов из магазина Google Play - хороший способ.

Наконец, спасибо моим товарищам по команде за этот проект: Гаураву Сингху, Руоюн Ян, Ха-Ын Пак, Уиллу Джаухари @ Duke Fuqua.