Введение
«СириТел» — телекоммуникационная компания, стремящаяся прогнозировать и предотвращать отток клиентов. Отток клиентов — это процент клиентов, которые перестали использовать продукт или услугу компании в течение определенного периода времени. Это может быть серьезной проблемой, поскольку влияет на лояльность клиентов компании и, в конечном итоге, влияет на доходы компании.
Чтобы помочь SiriTel решить проблему оттока клиентов, я провел исследовательский анализ данных, а затем создал классификатор машинного обучения, который будет предсказывать, будут ли клиенты уходить.
Получать
В этом проекте использовался набор данных по оттоку в телекоммуникациях, который можно найти в этом репозитории (customer_churn_data.csv) и на Kaggle по этой ссылке. Этот набор данных включал 21 столбец и 3333 уникальных значения. Он уже был чистым, без выбросов или нулевых значений.
Скраб и Исследуй
В этой части мы узнали, что процент оттока составляет около 14% или 483 из 3333 клиентов. И мы собираемся изучить различные факторы, которые потенциально могут привести к указанной ставке. Здесь я отмечу лишь некоторые интересные находки. Более подробную информацию вы можете найти в блокноте.
Длина учетной записи
Мы видим, что account_length, по-видимому, не оказывает существенного влияния на то, покидает ли клиент компанию или нет, потому что у нас есть аналогичные средние значения и стандартные отклонения для длины учетной записи.
- Средняя длина аккаунта без оттока: 3,36
- Длина учетной записи Std Dev без оттока: 1,33
- Средняя длина аккаунта для оттока: 3,42
- Длина стандартной учетной записи Dev для оттока: 1,32
Состояние
Понятно, что есть определенные штаты с гораздо более высокой текучестью. Сгруппированные по штатам, Калифорния, Мэриленд, Нью-Джерси, Техас имеют самый высокий процент оттока (около 25%). Штаты с наименьшим оттоком включают Аляску, Гавайи (около 5%). Однако у нас нет информации о том, «почему» — это может быть связано с сигналом сотовой связи, различными предложениями и т. д.
Международный план
Из 3333 клиентов 323 человека имеют международный план (42% этих клиентов ушли) и 3010 человек не имеют этого плана (11% этой группы больше не пользуются услугами СирииТел). Таким образом, процент клиентов, которые уходят, выше для клиентов с международными планами, чем для клиентов без международных планов.
План голосовой почты
Из 3333 клиентов, которых мы наблюдали, 922 клиента имеют план голосовой почты и 2411 клиентов без плана голосовой почты.
Процент ушедших клиентов выше среди клиентов без планов голосовой почты (17%), чем среди клиентов с тарифными планами голосовой почты (9%).
Люди, которые в среднем получают больше сообщений голосовой почты, чаще уходят.
Звонки в службу поддержки клиентов
Когда мы смотрим на звонки в службу поддержки клиентов, мы видим, что по мере увеличения количества звонков в службу поддержки увеличивается и вероятность оттока. Большинство клиентов, которые НЕ ушли, сделали 1–2 звонка в службу поддержки. Тем не менее, большинство людей, которые ДЕЙСТВИТЕЛЬНО ушли, сделали более 3 звонков в службу поддержки.
Всего звонков
Клиенты, которые уходили, и те, кто не уходил, использовали почти одинаково днем, вечером, ночью и при международных звонках.
Ставки
- Дневная ставка: 0,17
- Скорость Евы: 0,085
- Ночная ставка: 0,045
- Ставка международного плана: 0,27
- Ставка немеждународного плана: 0,27
Тарифы на международные минуты одинаковы независимо от того, есть ли у клиента международный тариф или нет (27 центов за минуту).
Модель
В этой части проекта я исследовал различные модели классификации, включая логистическую регрессию, KNN, случайный лес и XGBoost. Для каждой модели я наблюдал матрицу путаницы, ACU, точность, отзыв, точность и оценку F1 как для обучения, так и для тестирования.
- Матрица путаницы: таблица, используемая для описания производительности модели классификации, где одна ось матрицы путаницы представляет истинное значение элементов, для которых модель сделала прогнозы, а другая ось представляет метки, предсказанные классификатором.
- ROC/ACU: кривая рабочих характеристик приемника (ROC), которая отображает скорость ложных срабатываний в зависимости от частоты истинных срабатываний. Таким образом, общую точность классификатора можно количественно оценить с помощью AUC, площади под кривой. Совершенные классификаторы будут иметь показатель AUC 1,0, в то время как AUC 0,5 считается тривиальным или бесполезным.
- Точность: измеряет точность прогнозов (количество истинных срабатываний/количество прогнозируемых срабатываний).
- Отзыв: указывает, какой процент интересующих нас классов был фактически захвачен моделью (количество истинных положительных результатов/количество фактических общих положительных результатов).
- Точность: позволяет нам измерить общее количество прогнозов, которые модель делает правильно, включая как истинные положительные, так и истинные отрицательные значения (истинные положительные + истинные отрицательные/общее количество наблюдений).
- Оценка F-1: представляет гармоническое среднее точности и полноты. Короче говоря, это означает, что оценка F1 не может быть высокой, если точность и полнота также не будут высокими. Когда у модели высокий балл F1, вы знаете, что у вашей модели все хорошо.
Интерпретация
Лучшей моделью стала XGBoost с настройкой GridSearch (0,93 ACU, 0,96 точности и 0,84 балла F1).
Три самые важные функции — это звонки в службу поддержки, план голосовой почты и международный план.
Рекомендации
- Пересмотрите и пересмотрите протокол обслуживания клиентов компании (возможно, предложите большее поощрение клиентам, сделавшим более 3 звонков в службу поддержки клиентов).
- Изменение тарифов на международные минуты/международный план, потому что люди с международным тарифом платят по тому же тарифу, что и люди, у которых его нет.
- Инициирование опросов отзывов клиентов для уходящих клиентов.
Будущие работы
- Получите больше данных о сигнале сотовой связи в США, чтобы найти закономерности в штатах с более высоким оттоком.
- Информация по звонкам в службу поддержки. Я хотел бы знать, о чем обычно звонят клиенты (платежи, жалобы, веб-запросы и т. д.) и как представители обрабатывают каждый тип звонков.