Вы когда-нибудь встречали слово сегментация / кластеризация? Поздравляю, вы попали в нужное место. Прежде чем углубиться в некоторые вещи, связанные с машинным обучением, давайте сделаем краткий обзор с точки зрения бизнеса, так что засучите рукава.
Пример использования в бизнесе. Сегментация клиентов - это процесс, при котором мы разделяем наших клиентов на группы на основе схожих характеристик, чтобы компания могла эффективно ориентироваться на каждую группу.
Воздействие - сегментирование может помочь нам улучшить отношения с клиентами, разработать целевые маркетинговые стратегии, улучшить услуги, дополнительные продажи, перекрестные продажи, привлечь прибыльных клиентов и т. д.
Хорошо, теперь вы ознакомились с бизнес-требованиями. Пришло время заняться машинным обучением для решения реальных задач.
Чтобы проиллюстрировать эту концепцию неконтролируемого машинного обучения (кластеризации), мы рассмотрим пример задачи сегментации розничных клиентов в Интернете. Мы возьмем данные розничного интернет-магазина за 12 месяцев и постараемся выполнить сквозной анализ данных самым простым способом.
Подход-
Как и в любом проекте машинного обучения, импортируйте все необходимые библиотеки и получайте доступ к данным через папку / диск. После этого удалите все несогласованные записи / очистите набор данных.
Этот интернет-магазин обслуживает 4373 покупателя и работает в 38 странах. Хм ... похоже на небольшой магазин, но с хорошей доступностью из разных стран.
Хорошо, это все об анализе по странам. Теперь мы сосредоточимся на самом важном….! Да, у вас есть ПРОДУКТЫ.
У нас есть наши лучшие продукты в магазине, так что насчет наших лучших клиентов.
Итак, до сих пор мы рассматривали регионы деятельности, продукты и клиентов. Все эти вещи являются основополагающими для любого бизнеса, но есть еще несколько более важных аспектов, которые могут помочь нашему бизнесу процветать. Анализ тенденций продаж в зависимости от времени - одно из наблюдений, меняющих правила игры, потому что правильный анализ и статистически обоснованные решения могут помочь любому бизнесу добиться огромного успеха.
Хорошо, хорошо… Я знаю слишком много изображений за один присест. Не волнуйтесь, я поделюсь с вами итогом.
В последнем квартале года, по четвергам и после обеда, магазин показывает отличные результаты.
Теперь вы можете обсудить это со своей командой по продажам и маркетингу, и они наверняка вас поддержат!
Теперь мы закончили анализ. Пришло время больших мозгов.
Да, разбудите в себе эту деловую хватку, потому что сейчас мы рассмотрим новые функции.
RFM (Recency, Frequency, Monetary) анализ - это проверенная маркетинговая модель для сегментации клиентов на основе поведения. Он группирует клиентов на основе их истории транзакций - как давно, как часто и сколько они покупали. Математически говоря-
Recency = latest date - последний счет-фактура
Частота = количество номеров счетов
Денежный = общая сумма для каждого покупателя
Код ниже очистит эту картинку больше: -
Хорошо, до этой части все в порядке, теперь какой смысл все это делать ?? Есть догадки…
Если вы подумали о РЕЙТИНГАХ, то еще раз поздравляю вас с тем, что вы стремитесь и думаете в правильном направлении. Теперь мы присваиваем рейтинги каждому из наших клиентов, потому что это наиболее привычный, лучший и простой способ оценить что-либо.
У идеального клиента должна быть низкая недавность, высокая частота посещений и высокая денежная ценность.
Итак, мы присваиваем нашим клиентам оценки от 1 до 4 для каждой функции, и после присвоения этой оценки мы получили наш отличный инструмент, готовый ДАННЫЕ для алгоритма машинного обучения.
Примечание. - Для частотной и денежной оценки от 1 до 4 (отлично - плохо соответственно), но мы делаем обратное для новизны: 4 означает плохо, а 1 отлично.
АЛГОРИТМ
Для этой цели мы будем использовать алгоритм неконтролируемого машинного обучения k-means для кластеризации (нажмите, чтобы узнать об этом подробнее), потому что у нас нет помеченных данных. Помимо этого у нас есть еще один метод кластеризации, известный как Иерархическая кластеризация. В мире машинного обучения не существует лучшего алгоритма, все зависит от проблемы, которую вы собираетесь решать.
Теперь возникают вопросы, почему только k-средства? Вспомните свою деловую хватку и задайте несколько вопросов.
Сколько сегментов мы хотим? (Это может быть заранее предоставлено экспертом в предметной области или высшим руководством.)
Каков размер клиентской базы в этом бизнесе? (Можно легко оценить с помощью простого анализа.)
Поскольку вы получили ответ или суть, что я хочу передать. Если не думать таким образом, предположим, что мы хотим иметь 4 (k) группы клиентов для детализации и получения более четкой картины. В будущем наша клиентская база (точки данных) определенно будет увеличиваться по мере старения бизнеса. Этих двух причин достаточно, чтобы выбрать k-среднее вместо иерархического, поскольку, как мы знаем, иерархическое дает вам более широкую картину, а для больших наборов данных оно работает медленнее из-за временной сложности кубического порядка, тогда как k-среднее является линейным.
Подготовка вещей к заключительной работе-
Попробуем визуализировать очень простым способом для k = 2. Вы также можете проверить качество кластеров по Silhouette score.
Хорошо, хватит простоты, давайте сразу перейдем к нашим 4 кластерам.
После назначения кластеров мы теперь можем иметь хорошее представление о каждом кластере с точки зрения их вклада и доли в нашем бизнесе с точки зрения давности, частоты и денежного обращения.
Поскольку существует 4 кластера, клиентов можно разделить на 4 группы, такие как звездные, легкие, новые и потерянные клиенты. После формирования этих кластеров мы можем разработать хорошие рекомендации, услуги и бизнес-стратегии для нашей сегментированной клиентской базы.
Предмет будущего -
В будущем, когда наша клиентская база увеличится, мы можем повысить рейтинг до 1–5, чтобы получить большее количество кластеров, что снова поможет нам в увеличении прибыльности и эффективности. Мы также можем внедрить некоторые системы рекомендаций по полученным кластерам для увеличения ап / кросс-продаж.
Вывод-
Молодец! Если вы зашли так далеко, то, вероятно, получили представление о том, как алгоритмы неконтролируемого машинного обучения дают нам возможность принимать контролируемые бизнес-решения.
Надеюсь, вам понравилась эта статья, пожалуйста, не стесняйтесь вносить свои предложения / исправления / отзывы.
Большое спасибо за чтение, удачного машинного обучения, и если что-то пойдет не так, запомните это -