Машинное обучение — Кластеризация с использованием метода K-средних

Отказ от ответственности: эта история — всего лишь сценарий для Project Practice. Весь набор данных, используемый здесь, является поддельным, поэтому конфиденциальность отсутствует.

Сегментация клиентов может быть мощным инструментом для определения потребностей клиентов и предотвращения неудовлетворенных клиентов.

В этом случае будет некоторая доступная информация о клиентах

Пользовательский ИД
Пол
Возраст
Годовой доход
Кредитный рейтинг

Импорт библиотек и данных

Давайте посмотрим на информацию о данных, чтобы увидеть, есть ли какие-то значения NaN.

Некоторые категориальные данные должны быть преобразованы из строковых данных в числовые значения — в этом случае пол

Исследовательский анализ данных (EDA)

Давайте проведем исследовательский анализ данных (EDA), чтобы глубже понять данные.

Каково распределение клиентов по возрасту?
блочную диаграмму можно использовать для визуализации распределения

Из визуализации мы знаем, что возрастное распределение клиентов составляет от 20 до 70 лет.

Как насчет возрастной доли?
Мы разделили на несколько возрастных групп с диапазоном 10 лет для каждой группы.

Теперь мы знаем, что в возрастной группе преобладают клиенты от 26 до 35 лет, за которыми следуют до 25 лет, 46–55 и 36–45 лет с небольшим отрывом друг от друга.

Как насчет распределения оценки расходов клиентов?
расходы клиентов оцениваются по шкале от 1 до 100.

Женщины-клиенты опережают мужчин-коллег по количеству

Предварительная обработка данных

Кодировать Категориальный

В машинном обучении мы не можем напрямую выполнять данные в строковом формате. Нам нужно преобразовать данные в числовые, мы будем использовать метод LabelEncoder() для выполнения данных о поле.

Из результата видно, что данные, которые изначально были в виде строки, были преобразованы в числовой формат.

Выбор характеристик

Мы можем вручную выбрать функции в наборе данных, которые больше всего влияют на прогнозируемую переменную или результат.

Определение оптимального числа K

Определите оптимальное значение К с помощью метода локтя.

В методе локтя мы используем 5 в качестве значения k.

Модель оценки

ЭДА

Как распределяются доходы в каждом кластере?

Мы видим это в кластере 1, который показывает клиентов с более высоким годовым доходом, но не имеющих высоких показателей расходов. Клиенты в этом кластере могут иметь приоритет в целевом маркетинге, потому что их покупательная способность выше средней и они все еще не реализуют свой потенциальный показатель расходов.

Мы увидим корреляцию показателя расходов с годовым доходом для каждого кластера.

В результате анализа мы получаем информацию о том, что:

Первая группа, Кластер 0, состоит из клиентов с более низкими показателями годового дохода и расходов.
Вторая группа, Кластер 1, — это клиенты с высоким годовым доходом, но с точки зрения расходов, они все еще не реализуют свой потенциал, и это может быть возможностью для рынка.
Третья группа, Кластер 2, — это клиенты с высоким годовым доходом и расходами, они обычно относятся к профессиональным возрастным группам от 30 до 40 лет.
Четвертая группа, Кластер 3, — это клиенты с умеренным показателем расходов и годовым доходом, а возрастные данные позволяют предположить, что они относятся к разным возрастным группам — от старшего поколения к более молодому.
Последняя группа, Кластер 4, состоит из клиентов в возрасте 20 лет, у которых высокий показатель расходов, несмотря на более низкий годовой доход.

Машинное обучение — Кластеризация с использованием метода K-средних — пример клиента торгового центра