Внимание, мы переехали! Если вы хотите и дальше следить за последними техническими новостями Square, посетите наш новый дом https://developer.squareup.com/blog

Square for Retail была выпущена в 2017 году как первая вертикальная точка продаж Square - решения, ориентированные на определенную группу наших продавцов. Square for Retail специально отвечает потребностям розничных продавцов, предоставляя такие функции, как мощное управление запасами и приложение, разработанное специально для розничной торговли.

По мере того как команда продолжала совершенствовать Square for Retail, мы хотели понять поведение, которое привело некоторых продавцов к переходу от бесплатной пробной версии к платной подписке. Мы также хотели понять, как они используют некоторые ключевые функции Square for Retail.

Сегментация ключевых показателей по индивидуальным характеристикам (например, отрасль или размер бизнеса) проста и полезна для конкретных вопросов, которые возникают у продуктовых команд. Однако это упражнение легко перейти в состояние «аналитического паралича», когда эти показатели становятся слишком сложными и узко определенными (например, средний ежедневный объем транзакций по отрасли, размеру бизнеса и городу) и, в конечном итоге, не поддаются интерпретации.

Чтобы лучше понять наших продавцов, мы использовали сигналы использования продуктов для построения модели кластеризации K-средних. Это позволило нам определить естественные группы продавцов в зависимости от того, насколько они похожи друг на друга. Основываясь на представителях каждой группы, мы смогли составить четкое представление о том, кто были нашими типичными клиентами. Наша цель заключалась в том, чтобы предоставить команде продукта лучшее понимание основной клиентской базы продукта и адаптировать дорожную карту, чтобы в конечном итоге обеспечить лучший опыт продавца.

(Примечание: хотя в нашей модели кластеризации использовались данные Square, нижеприведенные методы и ключевые результаты используют фиктивные данные, чтобы проиллюстрировать наш подход.)

Методология + разработка функций

Одним из наиболее распространенных способов применения обучения без учителя к набору данных является кластеризация, в частности кластеризация на основе центроидов. Кластеризация берет массу наблюдений и разделяет их на отдельные группы на основе сходства:

Данные, используемые для модели K-средних, включали информацию на уровне продавца (количество местоположений, количество сотрудников, количество устройств, использующих Square для розничной торговли и т. Д.), А также информацию об использовании продукта (включая транзакции, корректировки запасов и создание / редактирование / удаление предметов). Были включены данные как для периодов бесплатной пробной версии, так и платной подписки для продавцов Square for Retail, которые были на платформе не менее 30 дней.

Числовые данные были агрегированы на уровне продавца несколькими способами:

  • Среднее значение за время существования (в состоянии бесплатной пробной версии или платной подписки) продавца
  • Сумма первого 30-дневного периода продавца (для всех намерений и целей, их бесплатный пробный период)
  • Максимальные суммы за время жизни (в состоянии бесплатной пробной версии или платной подписки) продавца

Сколько кластеров мне следует использовать? - частый вопрос при использовании K-средних. Есть несколько техник, чтобы определить это - мы использовали метод локтя, который рассматривает процент объясненной дисперсии как функцию количества кластеров. По сути, метод локтя предполагает, что количество (k) кластеров, в которых добавление еще одного кластера (k + 1) приводит только к небольшому предельному выигрышу в процентах объясненной дисперсии.

Хотя на рисунке 2 выше показано, что три кластера, вероятно, будут наиболее идеальными, мы рассмотрели для нашей модели и три, и четыре кластера. После сравнения дисперсии для отдельных характеристик в модели из трех и четырех кластеров мы в конечном итоге решили, что четыре являются наиболее репрезентативными.

При очистке нашего набора данных мы удалили функции, которые были сильно коррелированы (коррелированные функции затрудняют интерпретацию результатов модели), а также функции, которые не имели различий между кластерами.

Интерпретация результатов

Кластеризация K-средних требует, чтобы числовые данные приходили к набору кластеров. Однако после запуска модели и получения кластеров мы также используем категориальные данные (например, отрасль и размер бизнеса) для развития контекстного понимания наших кластеров. Добавление таких данных после запуска модели также помогает нам понять, почему данные разделяются определенным образом.

Мы использовали Python (pandas, sklearn) для очистки данных, построения модели и агрегирования нашего окончательного набора функций, включающего данные кластеризации, назначение кластера и демографические данные. Для дополнительных визуализаций мы импортировали окончательный набор данных в Tableau.

Отсюда мы исследовали как числовые, так и категориальные атрибуты каждого кластера, пытаясь создать «репрезентативных продавцов» из каждого.

Полученные результаты

Как упоминалось выше, приведенные ниже результаты представляют собой фиктивные данные Square for Retail и предназначены только для примера.

Большинство продавцов Square for Retail попали в кластер 1, тогда как другие кластеры представляют меньший процент. Чтобы понять, почему и как эти кластеры разделены, мы сегментировали наш набор данных по различным демографическим данным, упомянутым выше.

Несколько примеров ниже демонстрируют, как эти четыре кластера различаются в зависимости от демографической группы:

Размер бизнеса

В этом примере один из основных выводов демографической сегментации заключается в том, что кластер 3 содержит преимущественно более крупных продавцов. Уроки из этого кластера могут быть полезны при размышлениях о разработке функций продукта для этих более сложных продавцов.

Бесплатная пробная версия

Ниже мы видим, что кластеры 3 и 4, скорее всего, будут преобразованы в платную подписку после их бесплатной пробной версии. Это может означать, что с точки зрения функциональности они извлекают наибольшую пользу из Square for Retail. Ориентация на похожих продавцов в будущих маркетинговых кампаниях может привести к более высоким конверсиям.

Взаимодействие с предметом

Мощные функции управления запасами - это один из способов, которым Square for Retail отличается от основного решения Square для точек продаж. Поскольку эти функции построены на основе взаимодействия с элементами (например, создания, редактирования и удаления), мы хотели понять, как кластеры по-разному взаимодействуют с элементами. Интересным открытием стало то, что продавцы кластера 2 наиболее активно взаимодействовали с товарами на ежедневной основе:

Среднее количество транзакций в день

Как ни странно, в прошлом мы наблюдали, что некоторые продавцы использовали Square for Retail из-за его уникальных функций, но продолжали обрабатывать платежи с помощью основного продукта Square Point of Sale. Из-за этого еще одна метрика успеха, которую мы сочли полезной для этого примера, заключалась в том, обрабатывали ли продавцы транзакции на Square for Retail. Мы увидели, что, хотя кластер 3 представлял собой небольшую часть всех продавцов Square for Retail, они были невероятно активны с точки зрения транзакций:

Представители продавцов

С помощью приведенных выше примеров данных мы можем выделить ключевые качества, наблюдаемые в каждом кластере, при объяснении этих фиктивных результатов заинтересованным сторонам бизнеса:

  • Кластер 1 включает множество мелких розничных продавцов, которым очень интересно попробовать Square for Retail. Однако в конечном итоге они показывают самые низкие уровни взаимодействия с предметами и бесплатную пробную конверсию.
  • Кластер 2 показывает уровни взаимодействия с товарами выше среднего, что может быть обычным для магазина электроники (наиболее распространенная вертикаль в этом кластере).
  • Кластер 3 составляет только 10% Square для розничных продавцов, но продавцы кластера 3 являются наиболее активными с точки зрения транзакций. Это может быть связано с тем, что кластер 3 содержит преимущественно более крупных продавцов - продавцов, которые с большей вероятностью будут иметь специального менеджера по работе с клиентами, который будет их привлекать и облегчать развертывание в их нескольких местах, что способствует более глубокому внедрению продукта.
  • Кластер 4 включает 20% продавцов, причем наиболее распространенной отраслью является одежда и аксессуары. Этот кластер демонстрирует высокий уровень взаимодействия с ключевыми функциями продукта и второй по величине коэффициент конверсии в платную подписку.

Выводы

Используя эти фиктивные данные, модель кластеризации создала четыре отдельных кластера Square для розничных продавцов. Эти результаты, если бы они были реальными, могли бы дать несколько важных уроков, которые помогут повлиять на план развития продуктовой команды:

  • В кластере 3 есть более крупные продавцы, которые активно используют Square for Retail в нескольких местах. Это может помочь информировать о том, что (1) продукт должен быть достаточно дифференцированным от бесплатного предложения Square, чтобы привлекать более сложных продавцов, которые раньше не рассматривали Square для своих нужд, и (2) для управления учетной записью должно быть выделено больше ресурсов. Площадь для ритейла.
  • Кластер 4 содержит вдвое больше продавцов, чем кластер 3. Учитывая их высокую степень взаимодействия с ключевыми функциями инвентаря, высокий средний размер транзакции и высокий коэффициент конверсии из бесплатной пробной версии, кластер 4 может представлять собой «золотую середину», о которой следует помнить при выборе функций. строить / расставлять приоритеты в будущем.

Использование кластеризации K-средних для нового продукта, такого как Square for Retail, помогает команде лучше понять клиентов, для которых мы строим. Преимущество этого типа анализа заключается в том, что после того, как модель построена, ее можно будет повторно использовать в будущем по мере того, как команда выпускает новые функции или привлекает больше клиентов. Стоит отметить, что производительность кластеризации может варьироваться в зависимости от выбора модели, способов агрегирования данных, варианта использования и т. Д.

Мы представили фактические результаты за несколько недель до того, как команда взяла отпуск на каникулы, и один из ведущих назвал этот анализ «подарком на Рождество». Так что есть и такая польза!