Это тематическое исследование, проведенное во время моего обучения на степень магистра наук в области бизнес-аналитики @UCSD.
Управление оттоком обычно можно разделить на несколько разных подходов. По отношению к покупателям один подход является «нецелевым», например, путем улучшения качества продукции, проведения массовой рекламы и т. д. Другой подход является «целевым», например, рассылка сообщений конкретным покупателям. Как правило, существует два вида «целевого» управления оттоком: реактивный и проактивный.
Одним из примеров реактивного управления оттоком является обращение к клиенту во время или после его оттока. Компания может предлагать скидки или другие льготы, чтобы удержать клиента. Этот подход не только дорогостоящий, но и может привести к одной проблеме, заключающейся в том, что клиентов могут приучить угрожать уходом, чтобы получить денежную выгоду.
Что, если мы сможем каким-то образом предсказать риск оттока клиентов в течение определенного периода времени и принять меры еще до того, как клиент угрожает уйти? Именно здесь вступает в действие проактивное управление оттоком.
В этом случае мы собрали обучающую выборку с 27 300 наблюдениями и коэффициентом оттока 50%, проверочную выборку с 11 700 наблюдениями и коэффициентом оттока 50%. У нас также была репрезентативная выборка с 30 000 наблюдений и коэффициентом оттока 2%, т. е. фактическая месячная скорость оттока.
Цель состоит в том, чтобы построить модель, которая предсказывает отток клиентов, а также выявляет ключевые факторы.
Мы заметили, что нашей целевой переменной является churn
. Столбец уникального идентификатора, который мы можем удалить, — customer
.
После проверки полей мы заметили, что все поля с типом object
, кроме region
и occupation
, имеют только два уникальных значения, а это значит, что мы можем просто перекодировать эти поля в двоичные числовые столбцы.
Для простоты этой статьи мы прикрепим здесь только два кратких графика исследовательского анализа данных, как показано ниже:
Итак, что нам нужно сделать, так это выяснить, какие факторы в данных влияют на отток клиентов и в какой степени. Поэтому мы можем использовать логистическую регрессию. Мы оцениваем логическую регрессию, вычисляем коэффициент для каждой переменной и вычисляем отношение шансов и важность для каждой переменной. Обратите внимание, что перед оценкой логистической регрессии требуется стандартизация.
odds
рассчитывается как:
odds = exp(variable coef)
importance
для переменной рассчитывается как:
importance = if odds > 1 then odds; else 1 / odds;
Вышеприведенное показало 15 самых важных переменных, которые нам сообщила логистическая регрессия, и три простых интерпретации перечислены ниже:
eqpdays:
еще на один день владения текущим оборудованием вероятность оттока клиентов увеличится в в 2,19 раза.highcreditr:
для клиентов с высоким creadit, вероятность оттока клиентов уменьшится в в 0,47 раза.month:
еще один месяц, в течение которого клиент услуги, вероятность оттока клиентов уменьшится в 0,66 коэффициента.
Как мы видим, тремя наиболее важными переменными являются eqpdays
, за которыми следуют highcreditr
и months
. Тем не менее, если мы можем найти подгруппу клиентов с определенными характеристиками (т. е. с текущим оборудованием в течение более длительного периода времени), мы можем отправлять им целевые сообщения и предложения, чтобы в первую очередь предотвратить их отток.
ОБРАЗЕЦ ДЕЙСТВИЯ. Мы планируем отправлять сообщения тем, кто владеет текущим оборудованием более 360 дней (приблизительно средний срок владения оборудованием), и отправлять им сообщения о продлении срока действия оборудования.
Предположение:
- 10% клиентов, получивших сообщение, переключатся на новый телефон.
- Стоимость для компании составляет единовременную стоимость в размере 150 долларов США (включая стоимость телефона и расходы на маркетинг).
- Средний доход на одного клиента в группе остается прежним.
Базовый коэффициент оттока для клиентов, владеющих текущим оборудованием более 360 дней, составляет 2,75%.
После того, как мы случайным образом присвоим столбцу eqpdays
10% этой подгруппы клиентов значение 0, мы используем логистическую модель для переоценки коэффициента оттока и расчета среднего значения. Новый средний показатель оттока оценивается в 2,14 %.
Средний доход этой подгруппы клиентов составляет 50,41 доллара США, и на основе приведенных выше результатов и предположений мы рассчитали новый LTV для клиента и сравнили его с базовым уровнем.
На приведенном выше графике показан расчетный LTV за 60-месячный период.
При прочих равных условиях:
- Средний LTV за 12 месяцев для клиента составит $497,77, увеличившись на 0,25% по сравнению с базовым LTV;
- Средний LTV за 24 месяца для клиента составит $857,17, увеличившись на 4,61% по сравнению с базовым LTV;
- Средний LTV за 36 месяцев для клиента составит $1109,14, увеличившись на 7,74% по сравнению с базовым LTV;
- Средний LTV за 48 месяцев для клиента составит $1285,80, увеличившись на 10,27% по сравнению с базовым LTV;
- Средний LTV за 60 месяцев для клиента составит $1409,64, увеличившись на 12,33% по сравнению с базовым LTV.
Вывод:
Проактивный способ управления оттоком клиентов принесет пользу компании. Это может заранее предотвратить отток клиентов, не приучая клиентов угрожать уйти из-за скидок.
Ограничения:
- Эффекты взаимодействия не учитываются в логистической регрессии. На практике необходимо добавить условия взаимодействия, и таким образом компания может более точно ориентироваться на клиентов с определенными характеристиками.
- Модель объяснила только 55% общей дисперсии. Но, как указывалось выше, при учете эффектов взаимодействия модель может стать более надежной.
Я надеюсь, что вы найдете это интересным, и, пожалуйста, не стесняйтесь указывать на ошибки и давать предложения. Спасибо за чтение.
Блокнот Jupyter можно найти здесь.