Подробный исследовательский анализ данных

Наука о данных произвела революцию в мире благодаря техническим преобразованиям. Теперь мы привыкли видеть множество приложений машинного обучения в нашей повседневной жизни. Но меня больше интересует, как машинное обучение может классифицировать людей на основе их личностных качеств.

В этой статье я продемонстрирую анализ данных о личностях клиентов, чтобы извлечь значимую информацию из большого объема данных маркетинговой кампании. Это попытка понять, как характеристики человека связаны с его личностными чертами и привычками.

1. Введение
2. Понимание данных
3. Исследовательский анализ данных (Matplotlib, Seaborn, Pandas)
4. Исследовательский анализ данных ((Dataprep.eda)
5. Заключение

1. Введение

Анализ личности клиентов — это подробный анализ всех типов клиентов компании. Это также помогает бизнесу понять поведение клиентов, увеличить использование, удовлетворенность клиентов, а также модифицировать продукты в соответствии с потребностями. Здесь я ориентируюсь на конкретных людей, которые проложили путь для расширения маркетинговых кампаний. Этот личностный анализ очень эффективен для повышения популярности и привлекательности продуктов и услуг.

2. Понимание данных

Анализ личности клиентов помогает бизнесу модифицировать свой продукт на основе целевых клиентов из разных типов клиентских сегментов. Например, вместо того, чтобы тратить деньги на продвижение нового продукта для каждого клиента в базе данных компании, компания может проанализировать, какой сегмент клиентов с наибольшей вероятностью купит продукт, а затем продавать продукт только этому конкретному сегменту.

2.1 Содержание

2.1.1. Люди

ID: уникальный идентификатор клиента
Year_Birth: год рождения клиента
Education: уровень образования клиента
Marital_Status: семейное положение клиента
Income: годовой доход семьи клиента
Kidhome: количество детей в семье клиента
Teenhome: количество подростков в семье клиента
Dt_Customer: дата регистрации клиента в компании
Недавность: количество дней с момента последней покупки клиента
Пожаловаться: 1, если клиент пожаловался за последние 2 года, в противном случае 0

2.1.2. Продукты

MntWines: сумма, потраченная на вино за последние 2 года
MntFruits: сумма, потраченная на фрукты за последние 2 года
MntMeatProducts: сумма, потраченная на мясо за последние 2 года
MntFishProducts: сумма, потраченная на рыбу за последние 2 года
MntSweetProducts: сумма, потраченная на сладости за последние 2 года
MntGoldProds: сумма, потраченная на золото за последние 2 года

2.1.3. Повышение

NumDealsPurchases: количество покупок, сделанных со скидкой
AcceptedCmp1: 1, если покупатель принял предложение в 1-й кампании, 0 в противном случае
AcceptedCmp2: 1, если покупатель принял предложение во 2-й кампании, 0 в противном случае
AcceptedCmp3: 1, если клиент принял предложение в 3-й кампании, 0 в противном случае
AcceptedCmp4: 1, если клиент принял предложение в 4-й кампании, 0 в противном случае
AcceptedCmp5: 1, если клиент принял предложение в 5-й кампании кампания, 0 иначе
Ответ: 1, если клиент принял предложение в последней кампании, 0 иначе

2.1.4. Место

NumWebPurchases: количество покупок, сделанных через веб-сайт компании
NumCatalogPurchases: количество покупок, сделанных с использованием каталога
NumStorePurchases: количество покупок, совершенных непосредственно в магазинах
NumWebVisitsMonth: количество посещений веб-сайта компании в прошлый месяц

3. Исследовательский анализ данных (Matplotlib, Seaborn, Pandas)

Посмотрим на наши данные.

Данные выглядят хорошо на данный момент. Первое, что я сделал, это проверил пропущенные значения.

Нашел столбец «Доход» с 24 пропущенными значениями, поэтому я заполнил его средними значениями.

Теперь, потому что есть столбец года рождения. Я изменил год рождения на возраст (я использовал 2022 год для обозначения их текущего возраста).

Суммировал общие расходы, всего нет. покупок, общее количество принятых кампаний и общее количество детских домов для каждого клиента.

Затем я изменил значения столбца «Семейное положение».

С помощью столбца идентификатора клиента проверено наличие дубликатов данных.

Теперь давайте снова проверим информацию о данных

3.1 Визуализация данных

Как видно из графика доходов, доход большинства клиентов находится в диапазоне 30 000–80 000.

Согласно колонке «Возраст», возраст большинства клиентов составляет от 44 до 57 лет.

Мы видим, что из общих расходов вино является самым продаваемым продуктом.

Мы видим корреляцию между доходом и общими расходами, а затем общее количество покупок. И еще одна корреляция между общими расходами и общими покупками.

4. Исследовательский анализ данных (Dataprep.eda)

Исследовательский анализ данных (EDA) — это процесс изучения набора данных и получения информации о его основных характеристиках. Пакет dataprep.eda упрощает этот процесс, позволяя пользователю исследовать важные характеристики с помощью простых API. Каждый API позволяет пользователю анализировать набор данных от высокого уровня до низкого уровня и с разных точек зрения.

Я использовал только один API, то есть create_report, который используется для создания отчетов из кадра данных pandas. Он предоставляет такую ​​информацию, как обзор, переменные, квантили и описательная статистика, корреляции, пропущенные значения и т. д.

Это четкий обзор всего набора данных, показывающий 24 пропущенных значения, и почти все переменные искажены.

Здесь я показал все идеи столбца «Образование». create_report дал мне все эти подробности о каждой переменной столбца, присутствующей в наборе данных. Это значительно упростило понимание данных.

Это диаграмма рассеяния, показывающая связь между доходом и винами. Клиенты в определенном диапазоне доходов являются постоянными покупателями вина.

Create_report предоставил здесь 3 вида коэффициента корреляции. Это копейщик, которого мы можем видеть на изображении выше.

гистограмма всех переменных очень легко показывает отсутствующие значения в столбце «Доход».

5. Вывод

Это попытка понять, как характеристики человека связаны с его личностными чертами и привычками. Подводя итог своим выводам, я нашел и заменил 24 пропущенных значения в колонке «Доход», «Корреляция между доходами и общими расходами», нет корреляции между годом рождения и суммой, потраченной на вино, покупателей вина больше, в основном выпускники и со средним доходом. . А насчет data.prep я поражен!! Теперь мы сможем делать прогнозы с помощью алгоритмов, основанных на этих демографических данных.

Тсс!!! Огромная работа, которую я здесь проделал ;) Я возьму немного чая и любую песню BTS. Встретимся с вами в Части 2.

Вы можете найти код на Python на Github.
Вы можете связаться со мной в LinkedIn.
Оставайтесь с нами!