Узнайте, как выглядят ваши клиенты и что и как они любят покупать в больших масштабах.

Представьте себе, что вы управляете бизнесом с разнообразным портфелем клиентов, разбросанных по географическому положению, с разными уровнями доходов. Ваши клиенты покупают разные продукты по разным каналам. Как оператор, вы хотите полностью понимать, как выглядят ваши клиенты, что и как они любят покупать.

Однако в вашей базе данных есть десятки тысяч клиентов (вам повезло!), и у каждого есть десятки атрибутов, таких как демографические данные и данные о поведении. Ни Excel, ни инструменты BI не дают необходимой информации об этом огромном объеме данных.

Вот где на помощь приходит сегментация клиентов на основе машинного обучения. Алгоритмы машинного обучения позволяют получать ценную информацию о каждом сегменте клиентов в любом масштабе и применять ее для принятия бизнес-решений.

В этой статье я шаг за шагом проведу вас по пути сегментации клиентов с помощью примера набора данных продуктового магазина.

От беспорядочных данных к практическим выводам

Мы используем набор данных из Анализ личности клиентов на Kaggle (CC0: лицензия Public Domain), содержащий информацию о 2240 клиентах по 29 аспектам. Он описывает демографию клиентов, финансовое положение, поведение при посещении, покупательское поведение и взаимодействие с кампаниями. Детали 29 аспектов показаны ниже.

Вот выводы, которые мы извлекли из сегментации клиентов из этого, казалось бы, сложного набора данных. Мы выделяем четыре сегмента, и пять основных факторов определяют каждый сегмент. Распределение факторов показано ниже.

Мы узнаем, как выглядит каждый сегмент.

Что они любят покупать.

И как они любят покупать.

Заинтригованы магией сегментации клиентов? Приступим к анализу!

Подготовьте данные

Перед запуском машинного обучения нам нужно проверить, достаточно ли набора данных для наших алгоритмов. Алгоритмы сегментации клиентов требуют стандартизированных входных данных, чтобы избежать асимметрии в выходных данных модели.

Преобразование данных

Согласно первоначальным экспериментам, демографические атрибуты, такие как год рождения, образование и семейное положение, атрибуты взаимодействия с кампанией и некоторые другие, не связаны с искомой информацией. Поэтому мы опускаем эти столбцы. На практике вам нужно будет провести несколько экспериментов, чтобы выбрать входные атрибуты для ваших моделей.

Нам также нужно рассчитать несколько процентов, например, процент суммы, потраченной на вино, по сравнению с общей потраченной суммой, и добавить их в набор данных, чтобы упростить сравнение.

Кроме того, нам необходимо стандартизировать набор данных, поскольку величина каждого столбца различается.

После этих шагов мы получаем следующий набор данных для ввода модели.

Оценить адекватность выборки

Хотя мы сократили количество столбцов с 29 до 16, остается слишком много переменных для непосредственного анализа. Поэтому нам нужно «объединить» разные переменные, чтобы сузить несколько факторов с помощью процесса, называемого «факторный анализ». Однако прежде чем проводить факторный анализ, нам необходимо оценить адекватность данных.

Обычно мы проводим тест Кайзера-Мейера-Олкина (КМО) и тест Бартлетта на сферичность, чтобы понять адекватность. Как правило, значение KMO > 0,6 приемлемо для факторного анализа; чем больше, тем лучше. Алгоритм вычисляет значение KMO для примера набора данных, равное 0,69. Тест Бартлетта на сферичность проверяет нулевую гипотезу. P-значение ‹ 0,05 указывает на то, что факторный анализ имеет смысл для набора данных. Алгоритм вычисляет p-значение набора данных равным 0,0.

Поэтому мы можем провести факторный анализ набора данных.

Уменьшить измерение набора данных

Определите количество факторов

Далее нам нужно понять, сколько ключевых факторов мы можем получить из набора данных, вычислив собственное значение переменных. Согласно Факторному анализу как инструменту анализа опроса, собственное значение фактора представляет собой величину дисперсии набора данных, объясняемую этим фактором. Собственное значение больше единицы считается значимым.

Собственные значения переменных показаны ниже. В следующем анализе у нас будет пять факторов.

Исследуйте отношения переменных

Запустив факторный анализ, мы получим следующий график. Совокупная дисперсия первых пяти факторов составляет 0,61, что означает, что пять факторов могут объяснить 61% дисперсии набора данных.

На приведенном ниже графике подробно показаны факторы. Величина каждой переменной указывает, насколько сильно она влияет на фактор.

Отсортировав переменные, мы видим, что для фактора 0 наиболее влиятельными переменными являются общая сумма покупок, общее количество покупок и доход. Все эти переменные указывают на объем покупки. Следовательно, мы можем назвать фактор от 0 до purchase_volume.

Повторяя анализ для остальных четырех факторов, мы можем назвать их wine_purchase, tech_maturity, meat_purchase и catalog_purchase соответственно.

На практике интерпретация факторов требует глубоких знаний бизнеса и отрасли. Вы добьетесь наилучших результатов, когда специалисты по данным будут сотрудничать с заинтересованными сторонами.

Анализ основных компонентов

Анализ главных компонентов (PCA) — это метод науки о данных, который уменьшает размерность большого набора данных, преобразовывая его переменные в несколько факторов без потери большого количества информации. Запустив PCA с результатами факторного анализа, мы получим следующий набор данных.

Кластеризация

Определить количество кластеров

Основными алгоритмами сегментации клиентов являются кластеризации. Во-первых, мы визуализируем распределение кластеров с помощью иерархической кластеризации и дендрограммы, которая показывает отношения между похожими наборами данных.

Запустив алгоритмы на приведенном выше наборе данных, мы получим дендрограмму ниже. Мы можем решить, сколько кластеров нам нужно, нарисовав горизонтальную линию, как показанную ниже пунктирную линию, и перемещая ее вверх и вниз.

Определение количества кластеров содержит в себе как науку, так и искусство. Мы хотим иметь приличное количество кластеров, чтобы каждый кластер представлял значимый потребительский сегмент. Однако слишком большое количество кластеров затрудняет анализ, что делает невозможным принятие бизнес-решений.

В этом примере мы решили иметь 4 кластера. Затем мы запускаем кластеризацию k-средних, чтобы получить 4 кластера.

Представьте клиентов

После всей тяжелой работы у нас теперь есть чистые данные для визуализации клиентов.

Обзор клиентов

Построив данные PCA (график 11), мы получим приведенный ниже график, на котором показано распределение факторов кластеров. Кластеры отличаются друг от друга по характеристикам, что является хорошим признаком того, что мы, вероятно, сможем извлечь полезную информацию, проанализировав каждый кластер.

Покупатели в кластере 0 имеют большой объем покупок и среднюю технологическую зрелость и покупают больше вина и меньше мяса по сравнению с другими кластерами. Мы обозначаем этот кластер как lifestyle buyer segment. Точно так же мы помечаем кластеры 1–3 как high potential buyer segment, essential buyer segment и casual buyer segment соответственно.

После добавления к набору данных на графике 6 меток сегментов мы можем визуализировать распределение важных клиентских переменных по сегментам.

Как выглядят клиенты

Понимание демографических данных клиентов, таких как доход и размер домохозяйства, всегда является хорошей идеей при сегментации клиентов.

Распределение доходов набора данных показано ниже (выбросы были исключены из анализа). Потенциальные покупатели имеют самый высокий доход, за ними следуют покупатели образа жизни.

Что касается домохозяйств, то у покупателей образа жизни больше подростков дома, чем у других сегментов.

Что клиенты любят покупать

Понимание того, что любит покупать каждый сегмент, помогает нам решить, как ориентировать клиентов на конкретные продукты. В этом примере объем покупки, покупка вина и покупка мяса являются важными факторами сегментации.

Общая сумма покупки рассчитывает общие расходы клиента на все продукты за последние два года. Покупатели с высоким потенциалом тратят больше всего, а покупатели образа жизни приближаются к этому.

Исходный набор данных содержит количество покупок вина, мяса, фруктов, рыбы, сладостей и золота. Первые два показывают четкие закономерности по сегментам. Покупатели образа жизни покупают больше всего вина, а затем идут покупатели основных продуктов.

С другой стороны, покупатели образа жизни меньше всего тратят на мясо, а покупатели с высоким потенциалом тратят больше всего на эту категорию.

Как клиенты любят покупать

Подробная информация о том, как и где клиенты предпочитают покупать, помогает нам определить наиболее эффективный способ продажи конкретных продуктов каждому сегменту. Этот набор данных описывает три метода покупок: через Интернет, в магазине и по каталогу.

По сравнению с тремя другими сегментами, покупатели с высоким потенциалом реже совершают покупки через Интернет.

С другой стороны, основные и случайные покупатели — большие любители покупок в магазине.

При покупках по каталогу покупатели с высоким потенциалом используют этот метод очень часто, в то время как клиенты из трех других сегментов используют его лишь изредка.

Принимайте маркетинговые решения на основе данных

Приведенный выше анализ дает нам четкое представление о демографии, покупательском поведении и поведении при посещении каждого сегмента. Благодаря этому мы можем принимать обоснованные маркетинговые решения.

Например, когда продуктовый магазин импортирует высококачественное вино, он может провести кампанию для состоятельных покупателей, которые любят покупать вино. Поскольку покупатели образа жизни часто покупают в Интернете, продуктовый магазин лучше всего распространяет информацию о продукте по электронной почте или другим онлайн-каналам.

С другой стороны, если в продуктовом магазине избыток вина среднего качества, он может продвигать его среди основных покупателей, которые любят покупать вино, но менее обеспечены. На этот раз продуктовый магазин имеет наилучшие шансы продать вино онлайн и в магазине.

Использование сегментации клиентов в реальном мире

Реальный набор данных может содержать больше клиентов и измерений, чем приведенный здесь образец набора данных (как интересно!). Таким образом, вы можете получить более полную информацию и применить ее к различным аспектам. Например, вы можете использовать информацию о вине для других продуктов образа жизни.

Обнаружив разумные сегменты клиентов, вы можете провести мозговой штурм по маркетинговым стратегиям для каждого сегмента, включая кампании, контент и творческие стратегии. Затем вы можете загружать информацию о сегментах и ​​маркетинговой стратегии на рекламные платформы для запуска программного маркетинга. Более того, большинство крупных рекламных платформ позволяют вам находить похожую аудиторию. Чем больше атрибутов клиентов вы предоставите рекламным платформам, тем более точные перспективы вы получите.

Следует отметить, что шаги, описанные выше, требуют большого количества экспериментов, что является характерной чертой науки о данных. Экспериментальный процесс может занять много времени и разочаровать, но расширение возможностей точного маркетинга с помощью сегментации клиентов вознаграждается. Так что не сдавайтесь, если вы не получили удовлетворительных сегментов после первых нескольких снимков. Продолжайте пробовать и получайте удовольствие от науки о данных.

В своих статьях я рассказываю, как использовать науку о данных для повышения уровня вашего бизнеса и оптимизации маркетинга. Если вы хотите обсудить сегментацию клиентов или смежные темы маркетинговой аналитики, подпишитесь на меня в LinkedIn или свяжитесь со мной по адресу [email protected]. До скорого.