Это тематическое исследование, проведенное во время моего обучения на степень магистра наук в области бизнес-аналитики @UCSD.

Управление оттоком обычно можно разделить на несколько разных подходов. По отношению к покупателям один подход является «нецелевым», например, путем улучшения качества продукции, проведения массовой рекламы и т. д. Другой подход является «целевым», например, рассылка сообщений конкретным покупателям. Как правило, существует два вида «целевого» управления оттоком: реактивный и проактивный.

Одним из примеров реактивного управления оттоком является обращение к клиенту во время или после его оттока. Компания может предлагать скидки или другие льготы, чтобы удержать клиента. Этот подход не только дорогостоящий, но и может привести к одной проблеме, заключающейся в том, что клиентов могут приучить угрожать уходом, чтобы получить денежную выгоду.

Что, если мы сможем каким-то образом предсказать риск оттока клиентов в течение определенного периода времени и принять меры еще до того, как клиент угрожает уйти? Именно здесь вступает в действие проактивное управление оттоком.

В этом случае мы собрали обучающую выборку с 27 300 наблюдениями и коэффициентом оттока 50%, проверочную выборку с 11 700 наблюдениями и коэффициентом оттока 50%. У нас также была репрезентативная выборка с 30 000 наблюдений и коэффициентом оттока 2%, т. е. фактическая месячная скорость оттока.

Цель состоит в том, чтобы построить модель, которая предсказывает отток клиентов, а также выявляет ключевые факторы.

Мы заметили, что нашей целевой переменной является churn. Столбец уникального идентификатора, который мы можем удалить, — customer.

После проверки полей мы заметили, что все поля с типом object, кроме region и occupation, имеют только два уникальных значения, а это значит, что мы можем просто перекодировать эти поля в двоичные числовые столбцы.

Для простоты этой статьи мы прикрепим здесь только два кратких графика исследовательского анализа данных, как показано ниже:

Итак, что нам нужно сделать, так это выяснить, какие факторы в данных влияют на отток клиентов и в какой степени. Поэтому мы можем использовать логистическую регрессию. Мы оцениваем логическую регрессию, вычисляем коэффициент для каждой переменной и вычисляем отношение шансов и важность для каждой переменной. Обратите внимание, что перед оценкой логистической регрессии требуется стандартизация.

odds рассчитывается как:

odds = exp(variable coef)

importance для переменной рассчитывается как:

importance = 
    if odds > 1 then odds;
    else 1 / odds;

Вышеприведенное показало 15 самых важных переменных, которые нам сообщила логистическая регрессия, и три простых интерпретации перечислены ниже:

eqpdays: еще на один день владения текущим оборудованием вероятность оттока клиентов увеличится в в 2,19 раза.
highcreditr: для клиентов с высоким creadit, вероятность оттока клиентов уменьшится в в 0,47 раза.
month:еще один месяц, в течение которого клиент услуги, вероятность оттока клиентов уменьшится в 0,66 коэффициента.

Как мы видим, тремя наиболее важными переменными являются eqpdays, за которыми следуют highcreditr и months. Тем не менее, если мы можем найти подгруппу клиентов с определенными характеристиками (т. е. с текущим оборудованием в течение более длительного периода времени), мы можем отправлять им целевые сообщения и предложения, чтобы в первую очередь предотвратить их отток.

ОБРАЗЕЦ ДЕЙСТВИЯ. Мы планируем отправлять сообщения тем, кто владеет текущим оборудованием более 360 дней (приблизительно средний срок владения оборудованием), и отправлять им сообщения о продлении срока действия оборудования.

Предположение:

  • 10% клиентов, получивших сообщение, переключатся на новый телефон.
  • Стоимость для компании составляет единовременную стоимость в размере 150 долларов США (включая стоимость телефона и расходы на маркетинг).
  • Средний доход на одного клиента в группе остается прежним.

Базовый коэффициент оттока для клиентов, владеющих текущим оборудованием более 360 дней, составляет 2,75%.

После того, как мы случайным образом присвоим столбцу eqpdays 10% этой подгруппы клиентов значение 0, мы используем логистическую модель для переоценки коэффициента оттока и расчета среднего значения. Новый средний показатель оттока оценивается в 2,14 %.

Средний доход этой подгруппы клиентов составляет 50,41 доллара США, и на основе приведенных выше результатов и предположений мы рассчитали новый LTV для клиента и сравнили его с базовым уровнем.

На приведенном выше графике показан расчетный LTV за 60-месячный период.

При прочих равных условиях:

  • Средний LTV за 12 месяцев для клиента составит $497,77, увеличившись на 0,25% по сравнению с базовым LTV;
  • Средний LTV за 24 месяца для клиента составит $857,17, увеличившись на 4,61% по сравнению с базовым LTV;
  • Средний LTV за 36 месяцев для клиента составит $1109,14, увеличившись на 7,74% по сравнению с базовым LTV;
  • Средний LTV за 48 месяцев для клиента составит $1285,80, увеличившись на 10,27% по сравнению с базовым LTV;
  • Средний LTV за 60 месяцев для клиента составит $1409,64, увеличившись на 12,33% по сравнению с базовым LTV.

Вывод:

Проактивный способ управления оттоком клиентов принесет пользу компании. Это может заранее предотвратить отток клиентов, не приучая клиентов угрожать уйти из-за скидок.

Ограничения:

  • Эффекты взаимодействия не учитываются в логистической регрессии. На практике необходимо добавить условия взаимодействия, и таким образом компания может более точно ориентироваться на клиентов с определенными характеристиками.
  • Модель объяснила только 55% общей дисперсии. Но, как указывалось выше, при учете эффектов взаимодействия модель может стать более надежной.

Я надеюсь, что вы найдете это интересным, и, пожалуйста, не стесняйтесь указывать на ошибки и давать предложения. Спасибо за чтение.

Блокнот Jupyter можно найти здесь.