Введение

«СириТел» — телекоммуникационная компания, стремящаяся прогнозировать и предотвращать отток клиентов. Отток клиентов — это процент клиентов, которые перестали использовать продукт или услугу компании в течение определенного периода времени. Это может быть серьезной проблемой, поскольку влияет на лояльность клиентов компании и, в конечном итоге, влияет на доходы компании.

Чтобы помочь SiriTel решить проблему оттока клиентов, я провел исследовательский анализ данных, а затем создал классификатор машинного обучения, который будет предсказывать, будут ли клиенты уходить.

Получать

В этом проекте использовался набор данных по оттоку в телекоммуникациях, который можно найти в этом репозитории (customer_churn_data.csv) и на Kaggle по этой ссылке. Этот набор данных включал 21 столбец и 3333 уникальных значения. Он уже был чистым, без выбросов или нулевых значений.

Скраб и Исследуй

В этой части мы узнали, что процент оттока составляет около 14% или 483 из 3333 клиентов. И мы собираемся изучить различные факторы, которые потенциально могут привести к указанной ставке. Здесь я отмечу лишь некоторые интересные находки. Более подробную информацию вы можете найти в блокноте.

Длина учетной записи

Мы видим, что account_length, по-видимому, не оказывает существенного влияния на то, покидает ли клиент компанию или нет, потому что у нас есть аналогичные средние значения и стандартные отклонения для длины учетной записи.

  • Средняя длина аккаунта без оттока: 3,36
  • Длина учетной записи Std Dev без оттока: 1,33
  • Средняя длина аккаунта для оттока: 3,42
  • Длина стандартной учетной записи Dev для оттока: 1,32

Состояние

Понятно, что есть определенные штаты с гораздо более высокой текучестью. Сгруппированные по штатам, Калифорния, Мэриленд, Нью-Джерси, Техас имеют самый высокий процент оттока (около 25%). Штаты с наименьшим оттоком включают Аляску, Гавайи (около 5%). Однако у нас нет информации о том, «почему» — это может быть связано с сигналом сотовой связи, различными предложениями и т. д.

Международный план

Из 3333 клиентов 323 человека имеют международный план (42% этих клиентов ушли) и 3010 человек не имеют этого плана (11% этой группы больше не пользуются услугами СирииТел). Таким образом, процент клиентов, которые уходят, выше для клиентов с международными планами, чем для клиентов без международных планов.

План голосовой почты

Из 3333 клиентов, которых мы наблюдали, 922 клиента имеют план голосовой почты и 2411 клиентов без плана голосовой почты.

Процент ушедших клиентов выше среди клиентов без планов голосовой почты (17%), чем среди клиентов с тарифными планами голосовой почты (9%).

Люди, которые в среднем получают больше сообщений голосовой почты, чаще уходят.

Звонки в службу поддержки клиентов

Когда мы смотрим на звонки в службу поддержки клиентов, мы видим, что по мере увеличения количества звонков в службу поддержки увеличивается и вероятность оттока. Большинство клиентов, которые НЕ ушли, сделали 1–2 звонка в службу поддержки. Тем не менее, большинство людей, которые ДЕЙСТВИТЕЛЬНО ушли, сделали более 3 звонков в службу поддержки.

Всего звонков

Клиенты, которые уходили, и те, кто не уходил, использовали почти одинаково днем, вечером, ночью и при международных звонках.

Ставки

  • Дневная ставка: 0,17
  • Скорость Евы: 0,085
  • Ночная ставка: 0,045
  • Ставка международного плана: 0,27
  • Ставка немеждународного плана: 0,27

Тарифы на международные минуты одинаковы независимо от того, есть ли у клиента международный тариф или нет (27 центов за минуту).

Модель

В этой части проекта я исследовал различные модели классификации, включая логистическую регрессию, KNN, случайный лес и XGBoost. Для каждой модели я наблюдал матрицу путаницы, ACU, точность, отзыв, точность и оценку F1 как для обучения, так и для тестирования.

  • Матрица путаницы: таблица, используемая для описания производительности модели классификации, где одна ось матрицы путаницы представляет истинное значение элементов, для которых модель сделала прогнозы, а другая ось представляет метки, предсказанные классификатором.
  • ROC/ACU: кривая рабочих характеристик приемника (ROC), которая отображает скорость ложных срабатываний в зависимости от частоты истинных срабатываний. Таким образом, общую точность классификатора можно количественно оценить с помощью AUC, площади под кривой. Совершенные классификаторы будут иметь показатель AUC 1,0, в то время как AUC 0,5 считается тривиальным или бесполезным.
  • Точность: измеряет точность прогнозов (количество истинных срабатываний/количество прогнозируемых срабатываний).
  • Отзыв: указывает, какой процент интересующих нас классов был фактически захвачен моделью (количество истинных положительных результатов/количество фактических общих положительных результатов).
  • Точность: позволяет нам измерить общее количество прогнозов, которые модель делает правильно, включая как истинные положительные, так и истинные отрицательные значения (истинные положительные + истинные отрицательные/общее количество наблюдений).
  • Оценка F-1: представляет гармоническое среднее точности и полноты. Короче говоря, это означает, что оценка F1 не может быть высокой, если точность и полнота также не будут высокими. Когда у модели высокий балл F1, вы знаете, что у вашей модели все хорошо.

Интерпретация

Лучшей моделью стала XGBoost с настройкой GridSearch (0,93 ACU, 0,96 точности и 0,84 балла F1).

Три самые важные функции — это звонки в службу поддержки, план голосовой почты и международный план.

Рекомендации

  • Пересмотрите и пересмотрите протокол обслуживания клиентов компании (возможно, предложите большее поощрение клиентам, сделавшим более 3 звонков в службу поддержки клиентов).
  • Изменение тарифов на международные минуты/международный план, потому что люди с международным тарифом платят по тому же тарифу, что и люди, у которых его нет.
  • Инициирование опросов отзывов клиентов для уходящих клиентов.

Будущие работы

  • Получите больше данных о сигнале сотовой связи в США, чтобы найти закономерности в штатах с более высоким оттоком.
  • Информация по звонкам в службу поддержки. Я хотел бы знать, о чем обычно звонят клиенты (платежи, жалобы, веб-запросы и т. д.) и как представители обрабатывают каждый тип звонков.