Используя методы кластеризации, компании могут определить несколько сегментов клиентов, что позволит им ориентироваться на потенциальную пользовательскую базу.
В этом проекте мы будем использовать кластеризацию K-средних, которая является важным алгоритмом для кластеризации немаркированного набора данных.

Постановка задачи

Компания хочет определить правильный сегмент клиентов на основе возраста, годового дохода и оценки расходов, чтобы сосредоточить маркетинговые ресурсы на этом сегменте.

  1. Загрузка набора данных

Данные доступны в моем репозитории github по ссылке в конце.

Построение корреляционной матрицы, чтобы увидеть, как каждая переменная коррелирует с другой.

Возраст и показатель расходов имеют высокую корреляцию.

Стандартизация данных с помощью MinMaxScaler.

Выявление наилучшего количества кластеров для использования в данных с использованием метода локтя и оценка производительности с использованием оценки силуэта.

График годового дохода и расхода.

Кластер 4 представляет клиентов с высоким годовым доходом и низким показателем расходов
Кластер 2 и кластер 5 представляют клиентов со средним показателем расходов и среднегодовым доходом
Кластер 0 представляет клиентов с низким показателем расходов и низким доходом
> Кластер 1 представляет клиентов с низким годовым доходом и высоким показателем расходов.
Кластер 3 представляет клиентов с высоким показателем расходов и высоким доходом
.

Построение графика возраста и расходов.

кластер 0 представляет людей среднего возраста (40 лет) в наборе данных с низким показателем расходов
кластер 1 представляет более молодых людей с показателем расходов выше среднего
кластер 2 представляет пожилых людей со средним показателем расходов
кластер 3 представляет людей в возрасте чуть меньше среднего возраста (40 лет) с высоким уровнем расходов
.

Ссылка на мой репозиторий на github