Используя методы кластеризации, компании могут определить несколько сегментов клиентов, что позволит им ориентироваться на потенциальную пользовательскую базу.
В этом проекте мы будем использовать кластеризацию K-средних, которая является важным алгоритмом для кластеризации немаркированного набора данных.
Постановка задачи
Компания хочет определить правильный сегмент клиентов на основе возраста, годового дохода и оценки расходов, чтобы сосредоточить маркетинговые ресурсы на этом сегменте.
- Загрузка набора данных
Данные доступны в моем репозитории github по ссылке в конце.
Построение корреляционной матрицы, чтобы увидеть, как каждая переменная коррелирует с другой.
Возраст и показатель расходов имеют высокую корреляцию.
Стандартизация данных с помощью MinMaxScaler.
Выявление наилучшего количества кластеров для использования в данных с использованием метода локтя и оценка производительности с использованием оценки силуэта.
График годового дохода и расхода.
Кластер 4 представляет клиентов с высоким годовым доходом и низким показателем расходов
Кластер 2 и кластер 5 представляют клиентов со средним показателем расходов и среднегодовым доходом
Кластер 0 представляет клиентов с низким показателем расходов и низким доходом
> Кластер 1 представляет клиентов с низким годовым доходом и высоким показателем расходов.
Кластер 3 представляет клиентов с высоким показателем расходов и высоким доходом.
Построение графика возраста и расходов.
кластер 0 представляет людей среднего возраста (40 лет) в наборе данных с низким показателем расходов
кластер 1 представляет более молодых людей с показателем расходов выше среднего
кластер 2 представляет пожилых людей со средним показателем расходов
кластер 3 представляет людей в возрасте чуть меньше среднего возраста (40 лет) с высоким уровнем расходов.
Ссылка на мой репозиторий на github