Вы когда-нибудь встречали слово сегментация / кластеризация? Поздравляю, вы попали в нужное место. Прежде чем углубиться в некоторые вещи, связанные с машинным обучением, давайте сделаем краткий обзор с точки зрения бизнеса, так что засучите рукава.

Пример использования в бизнесе. Сегментация клиентов - это процесс, при котором мы разделяем наших клиентов на группы на основе схожих характеристик, чтобы компания могла эффективно ориентироваться на каждую группу.

Воздействие - сегментирование может помочь нам улучшить отношения с клиентами, разработать целевые маркетинговые стратегии, улучшить услуги, дополнительные продажи, перекрестные продажи, привлечь прибыльных клиентов и т. д.

Хорошо, теперь вы ознакомились с бизнес-требованиями. Пришло время заняться машинным обучением для решения реальных задач.

Чтобы проиллюстрировать эту концепцию неконтролируемого машинного обучения (кластеризации), мы рассмотрим пример задачи сегментации розничных клиентов в Интернете. Мы возьмем данные розничного интернет-магазина за 12 месяцев и постараемся выполнить сквозной анализ данных самым простым способом.

Подход-

Как и в любом проекте машинного обучения, импортируйте все необходимые библиотеки и получайте доступ к данным через папку / диск. После этого удалите все несогласованные записи / очистите набор данных.

Этот интернет-магазин обслуживает 4373 покупателя и работает в 38 странах. Хм ... похоже на небольшой магазин, но с хорошей доступностью из разных стран.

Хорошо, это все об анализе по странам. Теперь мы сосредоточимся на самом важном….! Да, у вас есть ПРОДУКТЫ.

У нас есть наши лучшие продукты в магазине, так что насчет наших лучших клиентов.

Итак, до сих пор мы рассматривали регионы деятельности, продукты и клиентов. Все эти вещи являются основополагающими для любого бизнеса, но есть еще несколько более важных аспектов, которые могут помочь нашему бизнесу процветать. Анализ тенденций продаж в зависимости от времени - одно из наблюдений, меняющих правила игры, потому что правильный анализ и статистически обоснованные решения могут помочь любому бизнесу добиться огромного успеха.

Хорошо, хорошо… Я знаю слишком много изображений за один присест. Не волнуйтесь, я поделюсь с вами итогом.

В последнем квартале года, по четвергам и после обеда, магазин показывает отличные результаты.

Теперь вы можете обсудить это со своей командой по продажам и маркетингу, и они наверняка вас поддержат!

Теперь мы закончили анализ. Пришло время больших мозгов.

Да, разбудите в себе эту деловую хватку, потому что сейчас мы рассмотрим новые функции.

RFM (Recency, Frequency, Monetary) анализ - это проверенная маркетинговая модель для сегментации клиентов на основе поведения. Он группирует клиентов на основе их истории транзакций - как давно, как часто и сколько они покупали. Математически говоря-

Recency = latest date - последний счет-фактура

Частота = количество номеров счетов

Денежный = общая сумма для каждого покупателя

Код ниже очистит эту картинку больше: -

Хорошо, до этой части все в порядке, теперь какой смысл все это делать ?? Есть догадки…

Если вы подумали о РЕЙТИНГАХ, то еще раз поздравляю вас с тем, что вы стремитесь и думаете в правильном направлении. Теперь мы присваиваем рейтинги каждому из наших клиентов, потому что это наиболее привычный, лучший и простой способ оценить что-либо.

У идеального клиента должна быть низкая недавность, высокая частота посещений и высокая денежная ценность.

Итак, мы присваиваем нашим клиентам оценки от 1 до 4 для каждой функции, и после присвоения этой оценки мы получили наш отличный инструмент, готовый ДАННЫЕ для алгоритма машинного обучения.

Примечание. - Для частотной и денежной оценки от 1 до 4 (отлично - плохо соответственно), но мы делаем обратное для новизны: 4 означает плохо, а 1 отлично.

АЛГОРИТМ

Для этой цели мы будем использовать алгоритм неконтролируемого машинного обучения k-means для кластеризации (нажмите, чтобы узнать об этом подробнее), потому что у нас нет помеченных данных. Помимо этого у нас есть еще один метод кластеризации, известный как Иерархическая кластеризация. В мире машинного обучения не существует лучшего алгоритма, все зависит от проблемы, которую вы собираетесь решать.

Теперь возникают вопросы, почему только k-средства? Вспомните свою деловую хватку и задайте несколько вопросов.

Сколько сегментов мы хотим? (Это может быть заранее предоставлено экспертом в предметной области или высшим руководством.)

Каков размер клиентской базы в этом бизнесе? (Можно легко оценить с помощью простого анализа.)

Поскольку вы получили ответ или суть, что я хочу передать. Если не думать таким образом, предположим, что мы хотим иметь 4 (k) группы клиентов для детализации и получения более четкой картины. В будущем наша клиентская база (точки данных) определенно будет увеличиваться по мере старения бизнеса. Этих двух причин достаточно, чтобы выбрать k-среднее вместо иерархического, поскольку, как мы знаем, иерархическое дает вам более широкую картину, а для больших наборов данных оно работает медленнее из-за временной сложности кубического порядка, тогда как k-среднее является линейным.

Подготовка вещей к заключительной работе-

Попробуем визуализировать очень простым способом для k = 2. Вы также можете проверить качество кластеров по Silhouette score.

Хорошо, хватит простоты, давайте сразу перейдем к нашим 4 кластерам.

После назначения кластеров мы теперь можем иметь хорошее представление о каждом кластере с точки зрения их вклада и доли в нашем бизнесе с точки зрения давности, частоты и денежного обращения.

Поскольку существует 4 кластера, клиентов можно разделить на 4 группы, такие как звездные, легкие, новые и потерянные клиенты. После формирования этих кластеров мы можем разработать хорошие рекомендации, услуги и бизнес-стратегии для нашей сегментированной клиентской базы.

Предмет будущего -

В будущем, когда наша клиентская база увеличится, мы можем повысить рейтинг до 1–5, чтобы получить большее количество кластеров, что снова поможет нам в увеличении прибыльности и эффективности. Мы также можем внедрить некоторые системы рекомендаций по полученным кластерам для увеличения ап / кросс-продаж.

Вывод-

Молодец! Если вы зашли так далеко, то, вероятно, получили представление о том, как алгоритмы неконтролируемого машинного обучения дают нам возможность принимать контролируемые бизнес-решения.

Надеюсь, вам понравилась эта статья, пожалуйста, не стесняйтесь вносить свои предложения / исправления / отзывы.

Большое спасибо за чтение, удачного машинного обучения, и если что-то пойдет не так, запомните это -