Анализ оттока на основе машинного обучения для современных руководителей бизнеса

В соавторстве с Анулеха Верма. Мы с Анулехой встретились на встрече. Она участвует в приведенном здесь примере реализации.

ВВЕДЕНИЕ

Недавно я встретил генерального директора успешной SaaS-компании (около $ 10 млн), создающей инструменты взаимодействия с клиентами, на собрании учредителей в Пало-Альто. Когда мы обсуждали применение машинного обучения в SaaS-бизнесе, разговор быстро перешел на управление оттоком (клиентов). Все предприятия на потребительском рынке и в корпоративном секторе должны иметь дело с оттоком, поскольку это может в конечном итоге повлиять на показатели выручки компании и тем самым повлиять на политические решения.

По словам авторов книги «Leading on the Edge of Chaos», увеличение удержания клиентов на 2% (или уменьшение оттока клиентов) эквивалентно сокращению затрат на 10%. Поэтому неудивительно, что SaaS-компании (и компании, заботящиеся о клиентах) уделяют много внимания анализу оттока. Кроме того, по данным Управления по делам потребителей Белого дома, приобрести нового клиента в 6–7 раз дороже, чем удержать старого.

Генеральный директор этой конкретной компании использовал традиционное ретроактивное управление оттоком, основанное на простой статистической модели. Его команда составляет список тех, кто занимается оттоком клиентов, и удовлетворяет их потребности с помощью специальных консьерж-услуг. Это привело к появлению новых шагов в рабочем процессе приложения и повлияло на общую продуктивность всех отделов, особенно групп, занимающихся UX-дизайном, A / B-тестированием и обменом рыночными сообщениями. Бизнес-группа поняла, что такой особый подход к оттоку клиентов не является устойчивым процессом, и им нужна целостная стратегия управления оттоком, которая учитывает риск (и связанную с ним устойчивость к риску), уровень и стоимость вмешательства по удержанию клиентов для различных сегментов клиентов, которые более системный и непрерывный.

«Есть только два источника конкурентного преимущества: способность узнавать больше о наших клиентах быстрее, чем конкуренты, и способность воплощать полученные знания в жизнь быстрее, чем конкуренты»

- Джек Уэлч, бывший председатель и главный исполнительный директор General Electric

Отток клиентов означает скорость ухода клиентов из компании или, проще говоря, скорость, с которой клиент покидает вашу компанию или службу. Примеры оттока клиентов:

  • Отмена подписки
  • Закрытие счета
  • Непродление контракта или соглашения об оказании услуг
  • Решение сделать покупки в другом магазине
  • Используйте другого поставщика услуг

Отток может происходить по разным причинам, и анализ оттока помогает определить причину (и время) этого оттока, открывая возможности для реализации эффективных стратегий удержания. Вот 6 проверенных временем шагов, которые помогут вам сосредоточиться на удержании клиентов. В этой статье мы сосредоточимся только на шаге 2 и частях шага 3. При этом помните, что речь идет не о том, чтобы обвинить продукт или группу успеха клиентов в оттоке, а о том, чтобы создать стратегию для улучшения удержания клиентов.

  1. Соберите доступное поведение клиентов, транзакции, демографические данные и модели использования
  2. Используйте эти данные для прогнозирования клиентских сегментов, которые с большой вероятностью уйдут.
  3. Создайте модель, чтобы смоделировать устойчивость бизнеса к риску относительно вероятности оттока.
  4. Разработайте модель вмешательства, чтобы рассмотреть, как уровень вмешательства может повлиять на процент оттока клиентов и пожизненную ценность клиента (CLV)
  5. Реализуйте эффективные эксперименты с несколькими сегментами клиентов, чтобы уменьшить отток и способствовать удержанию клиентов.
  6. Промойте и повторите, начиная с шага 1 (когнитивное управление оттоком - это непрерывный процесс, а не упражнение раз в год).

Мы также считаем, что подход, основанный на анализе рисков, принятии решений и маркетинговой сегментации, является достаточно общей структурой, которую можно использовать для решения многих бизнес-задач, а не только для анализа оттока.

ПОДОЖДИТЕ, ЧТО ЭТО ДЕЙСТВИТЕЛЬНО?

Модель прогнозирующего оттока - это простой инструмент классификации: посмотрите на активность пользователей в прошлом и проверьте, кто из них будет активен через определенное время, а затем создайте модель, которая вероятностно идентифицирует шаги и этапы, когда клиент (или сегмент) покидает вашу услугу или продукт.

Наличие модели прогнозирующего оттока дает вам осведомленность и количественные показатели, с которыми нужно бороться в ваших усилиях по удержанию. Это дает вам возможность формировать привычки клиентов, которые уходят, и вмешиваться, прежде чем они примут это решение. Без этого инструмента вы бы действовали на основе общих предположений, а не на основе модели, основанной на данных, которая отражает то, как на самом деле действуют ваши клиенты.

Без четкого понимания ваших клиентов и их поведения их трудно удержать, поэтому первый шаг в создании этой модели - это понимание вашего поведения клиентов на основе данных о клиентах. Давайте посмотрим, какие данные нам нужны, чтобы оценить триггеры, которые заставили их в конечном итоге покинуть вашу компанию.

Информация о клиенте

  • Почтовый Индекс
  • Кронштейн дохода
  • Пол
  • Занятие
  • У них есть дети в семье?
  • Как они находят ваш сайт / продукт?
  • Открывают ли они ваши информационные бюллетени и другие электронные письма или переходят по ссылкам?

Продукты

  • Тип продукта
  • Разнообразие продуктов
  • Использование купона
  • Предпочтения или комбинации продуктов

История покупок

  • Частота покупок
  • Дата последней покупки
  • Время дня / сезон покупки
  • Стоимость покупок
  • Способы оплаты
  • Балансы / Кредит магазина

Взаимодействие с клиентами

  • Вопросы по обслуживанию
  • Посещения магазинов / Интернет
  • Разрешение жалоб
  • Приоритет жалобы
  • Как они жалуются - по электронной почте, телефону или твиттеру?
  • Частота жалоб

Это всего лишь примеры полей для начала, и мы предпочитаем другие. Важно знать как можно больше о наших клиентах, чтобы знать, какое событие привело их к уходу и поиску следующего конкурента. Чем больше релевантных данных вы соберете, тем точнее будет ваша модель. Если вы используете модели оттока с поддержкой машинного обучения, вы можете использовать больше переменных, чем человек может вычислить и поиграть. Как только у вас будут эти разнообразные, но связанные данные о клиентах в одном месте, чтобы их можно было легко манипулировать и запрашивать, вы увидите, как на ваших глазах появляются тенденции, которые дадут вам представление об оттоке клиентов. Консолидированные данные обо всех оттянутых клиентах также помогут вам сгруппировать поведение и установить закономерности.

ПОДГОТОВКА ДАННЫХ

После того, как вы собрали достаточно данных для анализа, следующим шагом будет подготовка данных. Это наиболее трудоемкий, но важный этап анализа данных. Как гласит известная пословица - «Мусор на входе, мусор на выходе». Ваш анализ будет настолько хорош, насколько хороши данные, на которых он основан.

Вы можете использовать эти три критерия для обеспечения хорошего качества данных:

  • Полный
  • Чистый
  • Точный

Завершено- Есть ли у вас все необходимые параметры? Какой процент данных имеет пропущенные значения или нули? Вы можете заполнить некоторые пропущенные значения путем исследования данных, например, значения «State» на основе адреса клиента; «Категория продукта» на основе элемента продукта и т. Д.

Чистый- У вас есть несколько значений для одного и того же параметра? Например, Калифорния / Калифорния / Калифорния; Здравоохранение / Больница / Провайдер; различные сокращения для названия продукта и т. д. Если да, вы можете выполнить некоторую очистку данных для обеспечения единообразия.

Точно. Есть ли отрицательные значения дохода или доход 0 долларов США для некоторых транзакций ?; Конфликты дат; Значения «НЕТ» или «Н / Д» и т. Д. После обсуждения с заинтересованными сторонами вы можете решить, следует ли включать или исключать такие неверные данные в анализ.

В прогнозной + диагностической аналитике есть еще один этап подготовки данных - создание целевой переменной. В случае анализа оттока это может быть двоичный столбец, такой как «отток?». Вы можете ввести значения для этой переменной, проанализировав исторические данные. Например, значение 1 / TRUE для клиентов, которые отменили свою подписку, и 0 / FALSE для тех, кто продлил подписку.

ИССЛЕДОВАТЕЛЬСКИЙ АНАЛИЗ

* Пример реализации в конце статьи для технически подкованных *

В отличие от традиционного статистического моделирования, прогнозные модели на основе машинного обучения генерируются компьютерным алгоритмом, в отличие от статистиков, основанных на их интерпретации результатов линейной регрессии и связанных с ней методов. Критически важный навык для построения модели оттока - возможность задать как можно больше вопросов. Таким образом, вы можете протестировать, повторно протестировать и уточнить свои предположения и данные, прежде чем переходить к реализации модели. Вот несколько основных вопросов, чтобы начать.

1. Какова степень корреляции между доступными точками данных и истощением?

Из этого вопроса можно найти ответ типа «из всех клиентов, ушедших в прошлом квартале, 80% из них подали жалобу в выходные» или «из всех клиентов, ушедших за последние два квартала, 56% из них». они никогда не использовали инструменты отчетности в нашем программном обеспечении ». Ваша цель - использовать этот исследовательский вопрос, чтобы выявить одну или несколько моделей корреляции в конкретных данных, указывающих на истощение. При этом также задайте те же вопросы текущим клиентам и посмотрите, верны ли ваши общие предположения или это просто случайные всплески на диаграмме рассеяния: если ваши предположения верны, вы обнаружили тенденцию, которая требует внимания, если не придерживаться задавая больше вопросов.

Использование моделей машинного обучения также может показать вам некоторые корреляции, которые обычно невидимы для аналитиков.

2. На каком этапе жизненного цикла продукта они прошли?

Когда эти клиенты ушли? В конце первого пробного периода, когда срок подписки истек, или какая-то функция была слишком сложной для использования, или это внешнее событие? Как долго они использовали наше программное обеспечение до того, как ушли? Они позвонили в службу поддержки клиентов и остались недовольны? Каковы некоторые из основных тенденций для клиентов, которые не оставили и продлили подписку?

Продолжайте исследовать каждую точку данных и их соотношения - модели машинного обучения обычно делают это значительно лучше, чем люди, и находят неожиданные закономерности.

3. Каково влияние на жизненную ценность (LTV) различных клиентских сегментов?

Результатом хорошей модели является поиск триггеров и поведения, которые приравниваются к увеличению или увеличению удержания и снижению увеличения оттока. Каждому из ваших атрибутов можно сопоставить коэффициент роста или падения. Например, если каждый клиент в определенном сегменте имеет LTV в размере 100 долларов, и ваша модель показывает, что X из них уходят, вы можете легко выделить негативное влияние на выручку из-за этого оттока, помогая бизнес-лидерам количественно оценить и расставить приоритеты. по стратегиям удержания.

ЧТО ДАЛЬШЕ…

Мы надеемся, что вы будете утомлены исследованиями и обнаружите несколько интересных закономерностей ухода клиентов. Возможно, вы также нашли одну или две сильно коррелированных точки данных или, возможно, более крупный сегмент, который не так дифференцирован, как вы ожидали.

Если вы не можете найти хотя бы три атрибута с высокой корреляцией, значит, вы задаете неправильные вопросы о своих данных или, возможно, у вас нет нужного набора данных для начала.

После того, как вы определили сегменты клиентов и их поведение, которое приводит к оттоку, вы можете дать рекомендации для своей команды по увеличению удержания клиентов. Проектирование, реализация и получение результатов из умных экспериментов - тема другой статьи, но вот несколько быстрых идей.

Для телекоммуникационной компании, у которой наблюдается отток клиентов из демографических групп с низким доходом, которые используют больше текстовых сообщений, чем фактических телефонных звонков, речь может идти о создании нишевого «плана», ориентированного на этот сегмент, чтобы предотвратить переключение пользователей на следующего провайдера.

Для службы онлайн-инструментов управления проектами, в которой наблюдается быстрое падение клиентов в течение пробного периода, может быть предложено явное обучение во время подключения новых клиентов, чтобы сделать пробный период более интересным.

ОБРАЗЕЦ ВНЕДРЕНИЯ (набор данных Kaggle Telecom)

Для нашей статьи и простоты мы предположим, что данные готовы к подаче в механизм прогнозирования, и начнем с простой модели линейной регрессии или модели логистической регрессии, чтобы провести некоторый исследовательский анализ. Модель линейной регрессии помогает выяснить, какой набор независимых измерений / предикторов хорошо предсказывает целевую переменную. Также выделение переменных, которые имеют особенно сильное влияние.

Вот простая модель линейной регрессии в R, основанная на наборе данных Telecom Kaggle:

lm (Churn ~ International_Plan + Voice_Mail_Plan + Total_Day_charge + Total_Eve_Charge + Total_Night_Charge + Total_Intl_Calls + No_CS_Calls + Total_Intl_Charge, data = Telecom)

Отток - зависимая переменная. За независимыми переменными следует символ «~». «Телеком» - это название используемого набора данных. Вы можете добавлять / удалять независимые переменные в зависимости от того, как они изменяют значение Adjust-R2 - если оно увеличивает его, это важный предиктор; если он уменьшает значение, вы можете исключить его.

Выход:

Чтобы понять, какие атрибуты имеют сильное влияние, мы смотрим на количество звездочек в конце. ‘***’ - очень важно; '**'- существенный; '*' важный; '.' не так важно

Мы видим, что для телекоммуникационного бизнеса такие атрибуты, как «Количество обращений в службу поддержки клиентов»; «Предложения по международному плану»; «Тарифы на международные звонки» и т. д. играют важную роль в уходе клиентов из проверяемого набора данных. С точки зрения бизнеса, это требует дальнейшего изучения анализа сообщений службы поддержки клиентов и / или предложения конкурентоспособных планов для поддержания лояльности клиентов.

Использование модели логистической регрессии также дает аналогичный результат:

glm (Churn ~ International_Plan + Voice_Mail_Plan + Total_Day_charge + Total_Eve_Charge + Total_Night_Charge + Total_Intl_Calls + No_CS_Calls + Total_Intl_Charge +, data = Telecom, family = binomial)

Выход:

Модель определяет те же предикторы, которые сильно влияют на переменную отток. Когда мы рассчитываем точность модели по матрице неточностей, она составляет 86,3%.

Точность = (истинно отрицательные + истинно положительные) / Всего записей

0.8632=(2773+104)/3333

Теперь модель готова к реализации на тестовых данных. В случае логистической регрессии это выполняется с помощью функции pred ():

прогнозировать (telecomLog, type = «response», newdata = telecomTest)

куда

«TelecomLog» - это модель логистической регрессии.

«TelecomTest» - это тестовый набор данных.

«Response» сообщает механизму прогнозирования, что результат должен быть выражен в терминах вероятностей, что в нашем случае имеет смысл, поскольку мы хотим знать, какие клиенты имеют высокую вероятность оттока клиентов.

Теперь, когда мы провели исследовательский анализ и получили представление о влияющих переменных, мы можем углубиться в подход на основе ансамблевой модели. В наши дни специалисты по обработке данных используют многомодельный или ансамблевой подход для решения сложных бизнес-задач в области прогнозной аналитики, таких как отток клиентов. В этом подходе два или более алгоритма используются в одном наборе данных, и результаты сравниваются для большей точности и предотвращения переобучения.

Здесь мы использовали машинное обучение Microsoft Azure для прогнозирования оттока набора данных Telecom Kaggle с помощью двух алгоритмов: усиленного дерева решений и логистической регрессии.

Более высокая точность подхода к ансамблевому моделированию снижает коэффициент ошибочной классификации или общий коэффициент ошибок.

Показатель ошибочной классификации - это то, сколько клиентов, идентифицированных как оттоки с высоким риском, на самом деле не отошли. Это могло бы сэкономить много денег предприятиям за счет отказа от рассылки специальных рекламных акций / пакетов тем, кто отталкивает товары с низким уровнем риска, и сосредоточения внимания на вмешательстве тех, кто подвергается высокому риску. Вот сравнение точности ансамблевой модели:

Сравнивая значение AUC (площадь под кривой) для обеих моделей, мы видим, что двухклассовое дерево решений с усилением работает лучше, чем традиционная модель логистической регрессии при выявлении ошибочных классификаций. Уровень ошибочной классификации модели Boosted Decision Tree ниже на 5%, в то время как у модели логистической регрессии - 16%. Таким образом, с помощью ансамблевого подхода мы можем извлечь выгоду из сильных сторон обеих моделей - модель логистической регрессии выявляет предикторы, имеющие сильное влияние на целевую переменную, в то время как дерево решений с повышенным риском более точно определяет отток клиентов с высоким риском.

В заключение, целостный подход к прогнозированию сложных бизнес-явлений будет хорошим сочетанием традиционного статистического моделирования и перспективных методологий, таких как ансамблевое моделирование.

В КОНЦЕ КОНЦОВ…

Если вы серьезно относитесь к принятию качественных, контролируемых рисками и ориентированных на клиента решений, которые должны основываться на выводах о мире, помимо имеющихся данных, вам потребуются специалисты по принятию решений и инженеры в вашей команде. а алгоритмы на основе машинного обучения делают его более точным. Если у вас есть бизнес и вы не уверены в своем анализе оттока, возможно, пришло время связаться с специалистами по науке о принятии решений (это намек на то, чтобы отправить нам электронное письмо) .