Истощение клиентов, также известное как отток клиентов, текучесть клиентов определяется как потеря клиентов в бизнесе, это одна из самых больших проблем, особенно в банковском деле, поскольку клиенты считаются наиболее ценной его частью.

Мы используем данные о клиентах банка, чтобы прогнозировать возможные потери клиентов с помощью машинного обучения, чтобы предотвратить любую возможную потерю клиентов, которая может произойти в будущем.

Набор данных

Эти данные были получены от Kaggle и представляют собой выборку счетов клиентов кредитных карт, начиная с марта 2013 года и до момента, когда было определено истощение в течение следующих 6 месяцев (апрель 2016 года — октябрь 2013 года).



Данные включают выборку 10 127 клиентов и содержат характеристики их демографического профиля, такие как пол, возраст, уровень образования и т. д., а также историю их транзакций.

Исследовательский анализ данных (EDA)

Наша цель здесь — понять клиентов банка, сделав выводы с помощью визуализации и выявив возможные причины оттока.

Распределение классов

Данные разделены на 2 класса, которые определяют статус истощения клиента: Существующий клиент, Подтвержденный клиент. Существующие клиенты составляют 83,9% нашей выборки, а ушедшие клиенты составляют 16,1%, мы ясно видим, что соотношение классов несбалансировано, что может затруднить выявление моделью ушедших клиентов.

Возрастной диапазон

Наибольшее количество Attrited клиентов приходится на возраст между 40–54 годами, а наименьшее число — на клиентов в возрасте между 65–69 лет.

Наибольшее количество Существующих клиентов приходится на возраст от 40 до 54 лет, а наименьшее — на клиентов в возрасте от 75 до 79 лет.

Пол

Количество клиентов-женщин выше как среди Ушедших, так и среди Существующих клиентов.

Тип кредитной карты

Наибольшее количество ушедших и существующих клиентов — это держатели синих карт, а наименьшее количество ушедших и существующих клиентов — у владельцев платиновых карт.

Годовой доход

Наибольшее количество ушедших и существующих клиентов имеют годовой доход менее 40 000 долларов, а наименьшее количество ушедших и существующих клиентов имеют годовой доход более 120 000 долларов. .

Период отношений с банком

Самый длинный период, который существующие и ушедшие клиенты провели в банке, составляет от 35–39 месяцев, а самый короткий — от 10–14 месяцев.

Предварительная обработка данных

Чтобы подготовиться к моделированию, мы должны закодировать его категориальные признаки в числа. Категориальные признаки были закодированы обычными, поскольку большинство категориальных признаков были обычными, такими как уровень образования, тип кредитной карты, категория дохода и т. д.

Затем данные были разделены на 80% обучения для обучения модели и 20% тестирования для проверки нашей обученной модели и того, как она работает.

Моделирование

Сначала была создана базовая модель, которая предсказывает наиболее часто встречающийся класс для всех образцов в тестовом наборе. Затем использовали метод ансамбля машинного обучения, который использует несколько алгоритмов машинного обучения одновременно, чтобы получить лучшую прогностическую эффективность, а не пробовать один алгоритм за раз, затем выбрать алгоритм с наивысшей оценкой и настроить его с использованием подхода гиперпараметров (GridSearchCV) для достижения лучшего результата. Результаты.

Алгоритмы машинного обучения, используемые в методе:

  1. "Логистическая регрессия"
  2. К-Ближайшие соседи
  3. Классификатор дерева решений
  4. Случайный лесной классификатор

Результаты

Прочтите эту статью, чтобы узнать о показателях производительности модели классификации.

Базовая оценка модели составила 0,8460, что было ожидаемо, поскольку наиболее растущий класс был у существующих клиентов. После ансамблевого метода классификатор случайного леса имел самую высокую оценку модели с точностью 0,968, а после ее настройки с помощью GridSearchCV мы достигли точности 0,969. На приведенном ниже графике показаны различные метрики, используемые для оценки базовой модели, случайного леса и случайного леса после GridSearchCV (после GridSearchCV).

Модель Random Forest после GridSearchCV имела наивысшую точность и высочайшую точность, но исходная модель Random Forest получила самую высокую полноту.

Это означает, что модель Random Forest после GridSearchCV идентифицировала ушедших клиентов лучше, чем исходная модель, но исходная модель лучше идентифицировала существующих клиентов, как вы также можете видеть в матрице путаницы ниже.

Модель случайного леса после GridSearchCV правильно идентифицировала утерянного клиента, как показано в части TP (истинно положительный результат), но идентифицировала существующего клиента меньше, чем исходная модель случайного леса, как показано в TN (истинный отрицательный результат). .

Как видно на кривой ROC, Random Forest After GridSearch получил более высокий уровень ложноположительных результатов, чем обычная модель случайного леса, между 0 и 0,1 по осям ложноположительных результатов, что означает, что положительный класс ( существующий клиент) был ложно идентифицирован в модели после GridSearchCV, что также можно увидеть в матрице путаницы выше в FP и TP.

Заключить:

Лучшей моделью прогнозирования убыли стала Random Forest после GridSearchCV с точностью 96,94 %, полнотой 99,01 % и точностью 97,42 %.

Вы можете найти мои работы здесь, на Github.



Я рекомендую вам открыть код в Google Colab для просмотра и взаимодействия с графиками.