Аналитика машинного обучения — прогнозирование оттока телекоммуникационных компаний

Проект MBA школы бизнеса имени Пола Мереджа; Советник: профессор ВибсАбхишек

Автор: Аксель Эйер, Кевин Ли, Лусио Чен, Шимпей Танге;

Введение:

Скорость оттока определяется как мера количества людей или элементов, покидающих коллективную группу за определенный период. Скорость оттока клиентов — один из наиболее важных показателей удовлетворенности клиентов и эффективности работы телекоммуникационных компаний. Исследования показали, что в среднем привлечение нового клиента обходится в 5–25 раз дороже, чем удержание существующего клиента, а увеличение удержания клиентов на 5% может привести к увеличению доходов на 25–95% [i]. Поэтому крайне важно понять, почему происходит отток и как мы можем минимизировать уровень оттока. В этом проекте мы надеемся использовать данные о клиентах телекоммуникационных компаний, чтобы понять отток клиентов и принять значимое бизнес-решение.

Цель:

Цель состоит в том, чтобы точно определить клиентов, которые потенциально могут уйти, с помощью независимых переменных, таких как пол, срок пребывания в должности и дополнительные бизнес-услуги, такие как телефонные линии и интернет-услуги. Воздействие на бизнес можно измерить по удержанию клиентов и доходам, полученным от удержания, повторной подписки и даже доходов от перекрестных продаж, которые вносят вклад в общую ценность жизненного цикла клиента (LTV). Успех системы можно измерить, проанализировав точность модели при классификации того, будет ли отток клиентов. Конечная цель модели — помочь увеличить доходы и прибыль телекоммуникационных компаний.

Набор данных:

Данные предоставлены Kaggle. Он включает в общей сложности 7000 строк уникальных данных о клиентах с минимальными пропущенными значениями. Существуют конкретные данные телекоммуникационной компании, такие как телефонные линии, интернет-услуги, срок службы, типы контрактов, способы оплаты, ежемесячные и общие платежи. Существуют также демографические данные, такие как пол, статус старшего гражданина и наличие у клиентов иждивенцев.

Очистка и анализ данных:

Исследование и очистка данных — это первый шаг перед моделированием. Для обзора данных были созданы сводные таблицы. Данные можно классифицировать по демографическим характеристикам, переменным бизнес-услуг (которые являются бинарными), различным типам контрактов и способам оплаты.

Как показано на рисунке 1и рисунке 2, 7043 клиента были распределены между мужчинами и женщинами, имеющими иждивенцев или не иждивенцами, а также имеющими или не имевшими партнеров. Часть клиентов составляют пожилые люди (16,2%). Всего существует 11 независимых переменных, связанных как с телефонными, так и с интернет-услугами. 90,3% клиентов имеют телефонную связь, а 42,2% от общего числа клиентов имеют несколько линий. Что касается интернет-услуг, около 78,3% клиентов имеют интернет-услуги, которые состоят из DSL (44,0%) и оптоволокна (34,4%).

Другой набор данных связан с контрактами и способами оплаты клиентов. Тип контракта распределяется между месяцем к месяцу (55%), один год (21%) и два года (24%). Способы оплаты немного более равномерно распределены между банковским переводом (22%), кредитной картой (22%), почтовым чеком (23%) и электронным чеком (34%).

Рисунок 3 обобщает числовые данные, такие как срок владения (общее количество месяцев), общие ежемесячные платежи и общие платежи на одного клиента. Медиана срока пребывания составляет 21,5 месяца с межквартильным диапазоном 40 месяцев. Общая ежемесячная плата имеет медиану 56,5 долларов США и межквартильный диапазон 64 доллара США. Общие расходы имеют медиану 1432 доллара США с межквартильным диапазоном 2880 долларов США. Наконец, на рисунке представлена ​​разбивка клиентов, ушедших или не ушедших, эта классификация поможет нам в обучении модели.

Подходы

Подход I: обучение с процентным разделением

В этом подходе мы обучили Наивный Байес, Логистическую регрессию и дерево решений J48 с процентным разделением на 60%, 66%, 70% и 80%. Во всех трех моделях самая высокая точность обеспечивается моделью логистической регрессии, которая неизменно обеспечивает более 80% точности. Самая высокая точность также обеспечивается моделью логистической регрессии. С другой стороны, самый высокий отзыв исходит от Наивного Байеса, который постоянно имеет более 80% отзыва.

Подход 2. Обучение модели с помощью k-fold

Во втором подходе мы обучили наивную байесовскую модель, логистическую регрессию и дерево решений J48 с k-кратностью по 5, 10, 15 и 20 кратностям. Самый высокий уровень точности достигается за счет логистической регрессии с уровнем точности не менее 80%. Точность также является самой высокой для модели логистической регрессии во всем, тогда как отзыв является самым высоким для модели наивного Байеса.

Подход III: логистическая регрессия — коэффициент (шансы)

Теперь мы рассмотрим коэффициенты независимых переменных логистической регрессии, преобразовав их в шансы. Из этого мы можем определить, что существует связь между большим коэффициентом независимой переменной и вероятностью того, что клиент останется, тогда как меньшее значение коэффициента снижает вероятность того, что клиент останется.

В целом можно сказать, чточем дольше срок действия и выше ежемесячная плата, тем ниже уровень оттока клиентов. Кроме того, чем дольше контракт, тем ниже уровень оттока клиентов. Что интересно, так это то, что клиенты, выбравшие оптоволокно для своего интернет-сервиса, с большей вероятностью уйдут, чем клиенты, выбравшие DSL или отсутствие интернета. Это может быть связано с другими факторами, такими как другие доступные варианты оптоволокна и усиление маркетинговых усилий конкурентов по предложению услуг оптоволоконного интернета.

Подход IV:улучшение с учетом затрат и выгод (тип II против типа I)

В случае оттока точность позволяет нам понять процент точно предсказанных клиентов, которые уйдут и не уйдут. Важно понимать значение ошибок типа I (ложноположительный результат) и ошибок типа II (ложноотрицательный результат) и связанные с ними издержки бизнеса.

Ошибка типа I (ложноположительный результат) относится к клиентам, которые, по прогнозам, уйдут, но планировали остаться. Если мы предположим, что телекоммуникационная компания вкладывает больше средств в предотвращение оттока рискованных клиентов, например, путем предоставления стимулов для обновления или предоставления бесплатных услуг, то потенциальная стоимость ошибки типа I представляет собой стоимость инвестиций, предоставляемых клиентам, которые не планировали переходить на услуги другой телефонной компании.

Ошибка типа II (ложноотрицательный) относится к клиентам, которые планируют уйти, но были отнесены к категории, чтобы остаться. Если предположить, что телекоммуникационная компания сосредоточит свои инвестиции на том, чтобы не допустить оттока рискованных клиентов, и продолжит предоставлять тот же уровень услуг другим клиентам, то потенциальная цена ошибки типа II — это потерянные клиенты. Это может быть очень дорого, поскольку стоимость привлечения нового клиента почти в 5–25 раз выше, чем удержание существующих клиентов. Таким образом, ошибка типа II обходится намного дороже, чем ошибка типа I.

Поскольку ошибки типа II обходятся дороже, мы решили скорректировать стоимость ошибки типа II так, чтобы она в 1,5 раза превышала стоимость ошибки типа I.

Стоимость ошибок II рода в 1,5 раза выше, чем ошибок I рода. При изменении порога общая точность уменьшится примерно на 1 % с 80,12 % до 79,18 %, но ошибка типа II уменьшится примерно на 4,5 % с 14,01 % до 9,37 %.

После выбора нашей «лучшей» модели можно провести дополнительный анализ затрат и результатов, чтобы управлять общей стоимостью нашего проекта. Однако следует отметить, что уменьшение односторонней ошибки приводит к увеличению количества ошибок противоположного типа. Для точного определения порога необходимо точное понимание стоимости ошибок.

Выводы для бизнеса и рекомендации:

Более важно понять, какая доля фактических положительных результатов была идентифицирована правильно (отзыв), а не какая доля положительных идентификаций была правильной (точность). Другими словами, более важно знать процент оттока клиентов, который алгоритмы успешно находят, а не процент фактического оттока клиентов от клиентов, которые алгоритмы предсказывают оттоком. Повышение процента отзыва и сокращение общего количества ошибок типа II важно для телекоммуникационных компаний, чтобы сохранить свой доход.

Независимо от процентного разделения или перекрестной проверки, у Наивного Байеса был лучший процент отзыва по сравнению с Логистической регрессией и Деревом решений. Несмотря на то, что точность была ниже, значительно более высокая полнота означает, что телекоммуникационная компания должна использовать наивный байесовский метод для прогнозирования оттока. После того, как клиенты с ошибкой типа II были идентифицированы, телекоммуникационная компания должна инвестировать в стимулы, чтобы побудить этих клиентов остаться. Возможно, этих клиентов будет проще удержать, чем тех, которые, согласно точному прогнозу, сразу же уйдут. Действия могут включать специальные программы лояльности, улучшенную обратную связь с клиентами, расширенную поддержку клиентов, приоритетное время ожидания и опытных агентов. Мы хотим знать, что действительно волнует этих клиентов, и облегчить выражение их беспокойства.

Как обсуждалось ранее, клиенты с более высокими затратами, более длительным сроком владения, интернет-услугами и продленными годовыми или двухлетними контрактами имеют наименьшую вероятность оттока. Больше внимания следует уделять недавно подключенным ежемесячным клиентам, чтобы убедиться, что они довольны своим текущим обслуживанием. После этого телекоммуникационная компания должна инвестировать в программы маркетинга и продаж, чтобы побудить всех своих клиентов модернизировать свои услуги с помощью пакетов и долгосрочных контрактов. Как только клиент оказывается запертым в экосистеме Telco, он с меньшей вероятностью будет искать альтернативные услуги.

Будущие улучшения:

Полученные здесь результаты ограничены имеющимися данными. Чтобы получить лучшие результаты в будущем, необходимо большее разнообразие данных. Некоторые примеры включают данные временных рядов, качественные данные и другие бизнес-переменные. Данные временных рядов, такие как дата и время, помогут составить график и отслеживать влияние улучшений на бизнес с течением времени. Качественные данные, такие как события, предложения конкурентов, запуски новых продуктов, помогут понять влияние событий на уровень оттока. Другие бизнес-переменные, такие как местоположение, удовлетворенность клиентов и использование данных, позволят использовать более сложное моделирование, которое поможет лучше понять потенциальные причины оттока клиентов.

[i] The Value of Keeping Right Customers, Harvard Business Review — https://hbr.org/2014/10/the-value-of-keeping-the-right-customers