Базовое руководство для понимания концепций сегментации и кластеризации.

Если вы начинающий профессионал в области данных, я уверен, что вы слышали термины «кластеризация» и «сегментация». Но что они на самом деле? а чем они разные?

Начнем с концепции кластеризации. Кластеризация - это статистическая методология, с помощью которой похожие объекты группируются в кластеры. Это процесс, который группирует похожие объекты в кластеры, чтобы их можно было сгруппировать и, следовательно, сегментировать. С другой стороны, сегментация - это процесс разделения клиентов на группы на основе их сходства. Эти термины могут звучать одинаково, но они совершенно разные. Посмотрим, чем они отличаются.

Сегментация:

Вспомним наше определение, согласно которому сегментация - это процесс разделения клиентов на группы на основе их сходства. Когда мы сегментируем, мы знаем, на кого ориентироваться. Например, у вас есть консалтинговая компания, которая помогает новым компаниям улучшить свои возможности принятия решений с помощью аналитики данных. В этом примере вашими целями являются малые предприятия, которые открыли свою компанию менее чем за год. Естественно предположить, что этой категории потребуются ваши услуги. Поиск новых владельцев бизнеса с опытом работы менее года - это процесс сегментации. Это важно, потому что многие предприятия, созданные в этой области, уже знают об анализе данных и могут не нуждаться в ваших услугах. Имеет смысл настроить маркетинг для этого сегмента.

Но сегмент все еще большой, правда? Не каждому владельцу малого бизнеса понадобятся ваши услуги. Что, если вы добавите еще одно измерение для повышения специфичности? Промышленность. Вы можете уточнить свой сегмент, включив в него только новые предприятия фитнес-индустрии. Вы добавляете это измерение, потому что знаете, что владельцы бизнеса в этой отрасли с меньшей вероятностью будут знать об анализе данных, чем в других отраслях, таких как розничная торговля, медицина, транспорт и банковское дело. Таким образом, чтобы улучшить свой сегмент, вы удаляете малые предприятия, которые не работают в фитнес-индустрии. Но, тем не менее, не все в этом недавно усовершенствованном сегменте будут нуждаться в ваших услугах. А как насчет местоположения? Вы обнаружите, что большинство онлайн-предприятий управляется одним человеком, поэтому мы знаем, что у них может не быть никакого опыта в области анализа данных. Таким образом, вы удаляете владельцев бизнеса, которые не только в сети. Идея состоит в том, чтобы усовершенствовать сегмент до тех пор, пока вы не дойдете до одного сегмента - святого Грааля маркетинга. Но сколько характеристик можно уточнить? По мере того, как ваши переменные, такие как тип отрасли, местоположение, размер бизнеса, продолжают расти, процесс сегментации становится все сложнее. Идея маркетинговой сегментации заключается в нахождении взаимосвязей внутри переменных для прогнозирования поведения клиентов. Вам может показаться невозможным просмотреть сотни типов данных и найти взаимосвязи между ними.

Вот тут-то и пригодится кластеризация.

Кластеризация помогает нам найти взаимосвязь между точками данных, чтобы их можно было сегментировать. Кластеризация данных может помочь нам обнаружить новый сегмент клиентов и их покупательское поведение с помощью машинного обучения и алгоритмов. Таким образом, мы можем сказать, что кластеризация - это со статистической точки зрения, а сегментация - с точки зрения бизнеса.

Концепция расстояния

Кластеризация - это процесс использования машинного обучения и алгоритмов для определения взаимосвязи различных типов данных и создания новых сегментов на основе этих взаимосвязей. Большинство алгоритмов кластеризации назначают кластер, который похож на другие объекты в том же кластере. Алгоритмы делают это с использованием концепции расстояния. Концепция расстояния - это способ измерить сходство. Алгоритмы кластеризации пытаются создать сегменты, которые максимально похожи или близки друг к другу.

Кластеризация - это метод обучения с учителем или без учителя?

Контролируемый метод - это использование переменной-предиктора для построения модели для прогнозирования целевой переменной. Здесь процесс моделирования учится на целевой переменной при создании модели. Примером этого метода обучения является множественная регрессия. С другой стороны, при обучении без учителя целевая переменная не используется для построения модели. Кластеризация является примером этой техники, она использует несколько различных переменных и группирует данные без указания логике делать это. После этого процесса создается переменная, известная как номер кластера.

Некоторые основные приложения кластерного анализа:

Сегментация рынка: объединение людей с одинаковой готовностью покупать определенный продукт на основе их сходства. Это приложение похоже на пример, показанный выше.

Сегментация продаж: кластеризация позволяет определить, какие люди покупают конкретный продукт.

Страхование: мы можем использовать методы кластеризации для выявления мошеннических страховых случаев.

Планирование образования: определение групп университетов на основе их обучения, географического положения, качества образования, типа программ на получение степени.

Кредит: Группировка клиентов на основе их кредитной истории.

Мы подошли к концу этой статьи. Я надеюсь, что теперь вы можете различать сегментацию и кластеризацию, а также понять концепцию кластерного анализа. Это базовое введение в кластерный анализ, моя следующая статья будет больше посвящена тому, как мы можем подготовить наши данные для кластерного анализа, и углубиться в эту тему.

Спасибо за чтение!