Отток относится к скорости или количеству клиентов, которые покидают компанию или услугу в течение определенного периода времени. Этот термин часто используется для описания клиентов, которые перестают быть клиентами или больше не покупают продукты компании, что в конечном итоге может негативно сказаться на доходах компании.

Низкий уровень оттока обычно считается признаком высокой удовлетворенности клиентов, в то время как высокий уровень оттока может указывать на проблему в продукте, услуге или отношениях с клиентами.

Акционер

  • Отдел маркетинга и продаж
  • Финансовый отдел

Постановка задачи

В конкурентной бизнес-среде электронной коммерции основная проблема, с которой сталкиваются компании, заключается в том, как распознать и понять поведение клиентов, которые могут уйти. Основная цель — точно определить оттока клиентов, чтобы компании могли разрабатывать и реализовывать соответствующие и эффективные рекламные акции для предотвращения оттока.

Цель

Заинтересованные стороны могут узнать, какие клиенты уходят, а какие нет, чтобы они могли обращаться к клиентам и целенаправленно предлагать рекламные акции.

Аналитический подход

Мы проанализируем шаблоны данных, которые определяют отток и отсутствие оттока клиентов, а затем построим модель классификации, которая поможет заинтересованным сторонам прогнозировать отток и неотток клиентов.

Оценка метрик

0 : Нет оттока (отрицательный)

1 : Отток (положительный)

|                     |     Not Churn-Pred   |    Churn-Pred    |
| --------------------| -------------------- | ---------------- |
|     Not Churn-Act   |         TN           |        FP        |
|     Churn-Act       |         FN           |        TP        |

Ошибка типа 1 | Ложно положительный

Интерпретация: клиенты, которые в действительности не уходят, но, по прогнозам, уходят.

Последствия: компания несет ненужные расходы

Ошибка типа 2 | Ложноотрицательный результат

Интерпретация: клиенты, которые на самом деле уходят, но прогнозируется, что они не уходят.

Последствия: Компания потеряет потенциальных клиентов, которые могли бы стать постоянными клиентами.

Исходя из вышеперечисленных последствий. Риск потерять клиентов намного выше, чем тратить деньги не на тех клиентов. если мы теряем постоянных клиентов, нам нужно делать много рекламы и акций, чтобы привлечь новых клиентов. то, что мы будем делать, это сосредоточиться на ложном отрицании, мы сосредоточимся на отзыве и f2-оценке.

Понимание данных

В наборе данных 3941 строка и 11 столбцов и 14,61% отсутствующих значений.

Числовая переменная:

  • Дискретный: NumberOfDeviceRegistered, NumberOfAddress
  • Продолжить: Срок владения, WarehouseToHome, DaySinceLastOrder, CashbackAmount

Категориальная переменная:

  • Номинал: PreferredOrderCat, Семейное положение, Отток
  • Порядковый номер : SatisfactionScore, Пожаловаться

  • Количество ушедших клиентов 674 (17,10%)
  • Количество клиентов, которые не уходят 3267 (82,90%)

Выбросы обнаружены в 5% от общего числа данных, это значение все еще можно считать разумным.

Есть повторяющиеся данные 672, которые мы удалим. для отсутствующих значений мы будем обрабатывать iterativeimputer .

это конвейерный поток, если в него поступают новые данные, они будут обрабатываться в соответствии с этим потоком

Моделирование

Поскольку наше внимание сосредоточено на отзыве и F2-оценке, мы сначала добавляем метрику f2-оценки для оценки модели со значением бета, равным 2, что означает, что полнота в 2 раза важнее точности. создать классификационную модель, минимизируя ложноотрицательные прогнозы по сравнению с ложноположительными.

from sklearn.metrics import fbeta_score, balanced_accuracy_score

add_metric('f2', 'F2', fbeta_score, greater_is_better=True, target='pred', beta=2.0)
add_metric('bacc', 'Bal. Accuracy', balanced_accuracy_score, greater_is_better=True, target='pred')
get_metrics()

Сравнить модели

Затем мы выберем 4 модели, которые будут настроены и сравнены.

Xgboost настроен

Логистическая регрессия настроена

Наивный байесовский тюнинг

Настроенное дерево решений

После того, как 4 модели будут настроены, они будут снова сравнены.

После сравнения мы выбираем логистическую регрессию на основе отзыва и f2-показателя.

Важно

Заключение и рекомендация

Основываясь на приведенных выше результатах, можно сделать вывод, что с помощью прогнозов с использованием сделанной модели модель может выявить 87% клиентов, которые уходят, но, по прогнозам, не уйдут.

Рекомендации:
что касается некоторых рекомендаций, которые можно дать следующим образом
* Предоставляйте клиентам акции, кэшбэк и т. д., чтобы они были более заинтересованы в использовании платформы электронной коммерции
* Обратите внимание на жалобы клиентов
* Делайте предложения по снижению стоимости доставки. Из графика видно, что многие уходящие клиенты находятся на близком расстоянии от склада.

Заключительное заявление

автор хотел бы поблагодарить всех, кто помог в этом анализе. для получения более подробной информации вы можете посетить github Отток клиентов электронной коммерции