Сегодня большинство услуг оцифрованы, а данные становятся все более доступными. Компании смогли хранить и обрабатывать огромные объемы данных, понимая, что ориентация на клиента становится основным требованием для того, чтобы выделиться на фоне конкурентов. Прогноз оттока клиентов важен для компаний, работающих по подписке. Они должны сосредоточиться на удержании клиентов и управлении оттоком, чтобы быть или оставаться лидерами. Им также необходимо понимать, какие клиенты отменяют свои подписки и почему.

Введение

Стоимость привлечения нового клиента может быть выше, чем стоимость удержания клиента, на целых 700%, а увеличение коэффициента удержания клиентов всего на 5% может увеличить прибыль на 25% до 95%.

В этой статье мы проведем анализ и прогнозирование оттока в Graphite, не написав ни одной строки кода.

Что такое отток клиентов?

Отток клиентов происходит в бизнесе «программное обеспечение как услуга» так же, как и в отраслях, основанных на подписке, таких как телекоммуникационная отрасль. Но очень часто компаниям не хватает знаний о факторах, ведущих к оттоку клиентов. Они должны внедрить модели прогнозирования оттока клиентов, чтобы вовремя реагировать на отток клиентов.

Идея модели оттока клиентов

Основной характеристикой машинного обучения является способность создавать системы, способные находить закономерности в данных и учиться на них — без явного программирования правил. В моделях прогнозирования оттока клиентов Модель будет наблюдать за характеристиками поведения и другими особенностями, которые снижают удовлетворенность клиентов от использования услуг/продуктов компании.

Во-первых, на этапе обучения алгоритмы машинного обучения выявят некоторые общие модели поведения тех клиентов, которые уже покинули компанию.

Затем, после обучения, алгоритмы могут сверять поведение будущих клиентов с такими шаблонами и указывать на потенциальных оттоков.

Вооруженные этими знаниями, компании могут активно работать с этими клиентами, чтобы взаимодействовать с ними, понимать их болевые точки и предотвращать отток клиентов до того, как это произойдет.

Набор данных для прогнозирования оттока клиентов

Итак, как нам начать работать с прогнозированием оттока? Какие данные необходимы?

В этом руководстве мы используем набор данных Telecom Customer Churn от Kaggle, который довольно популярен для моделирования оттока.

Каждая строка представляет клиента, а каждый столбец содержит атрибуты клиента.

Набор данных содержит информацию о:

  • Клиенты, которые ушли — столбец называется «Отток», и это будет целевой столбец в нашей Модели (что-то, что мы хотим предсказать)
  • Услуги, на которые подписался каждый клиент: телефон, несколько линий, Интернет, онлайн-безопасность, онлайн-резервное копирование, защита устройства, техническая поддержка, потоковое телевидение и фильмы.
  • Информация об учетной записи клиента — как долго он был клиентом, договор, способ оплаты, безбумажный биллинг, ежемесячные платежи и общие платежи.
  • Демографическая информация о клиентах — пол, возраст, наличие партнеров и иждивенцев.

Импорт набора данных

Давайте импортируем и проанализируем CSV-файл, который мы ранее скачали с Kaggle.

Мы можем просматривать строки нашего набора данных, фильтровать или выполнять поиск на вкладке «Просмотр данных».

У нас есть 21 столбец и 7032 строки.

Каждый загруженный набор данных в Graphite имеет удобную вкладку «Сводка». Он позволяет с первого взгляда проверить распределение числовых столбцов, количество нулевых значений и различные статистические показатели.

Мы можем быстро проверить, что наш целевой столбец «Отток», объясняющий, ушел клиент или нет, не очень несбалансирован. Это означает, что у нас достаточно сигналов «да» и «нет» для обучения модели.

Интересно посмотреть на распределение некоторых столбцов, таких как «ежемесячные платежи». У большинства наших клиентов ежемесячная плата составляет до 28 долларов США. Другая группа клиентов сосредоточена вокруг 80 долларов в месяц.

Модель классификации набора данных

Прогнозирование оттока клиентов — отличный пример использования бинарной классификации машинного обучения.

Причина в том, что наша целевая переменная «Churn» может иметь только два состояния:

Запустите модель машинного обучения классификации без кода

Теперь у нас есть загруженный набор данных. Все готово для создания модели машинного обучения без кода в Graphite. Мы выбрали модель двоичной классификации.

В Graphite для построения модели бинарной классификации вам понадобится

  • бинарный целевой столбец (что мы предсказываем, всего с двумя различными состояниями? Для нас это столбец «Отток»)
  • набор функций (другие столбцы из набора данных, которые влияют на целевой столбец)

Всего несколькими щелчками мыши мы создадим сценарий модели в Graphite.

Мы выбираем наш Целевой столбец из нашего набора данных:

Мы выбрали все остальные столбцы в качестве признаков.

Результаты модели машинного обучения

Мы оставим все остальные параметры по умолчанию и запустим этот сценарий.

Graphite позаботится о нескольких этапах предварительной обработки для достижения наилучших результатов, поэтому вам не нужно о них думать. Если вас интересуют технические детали, все эти этапы предварительной обработки будут выполняться автоматически:

  • обработка нулевых значений
  • пропущенные значения
  • Одно горячее кодирование
  • исправить дисбаланс
  • нормализация
  • константы
  • кардинальность

Graphite выберет 80 % (5625 строк) наших данных и обучитнесколько моделей машинного обучения.

Затем он проверит эти модели на оставшихся 20% (1407 строк) и рассчитает соответствующие оценки моделей. На основе оценок он выберет наиболее эффективную модель для набора данных.

Наилучшее соответствие модели, результаты и прогнозы доступны на вкладке Результаты примерно через 20 секунд обучения.

В нашем случае лучшей моделью, основанной на оценке значения F1, является логистическая регрессия. Показатели обучения других моделей перечислены ниже.

Матрица путаницы

Матрица путаницы позволяет легко увидеть, путает ли Модель два класса (ДА и НЕТ в нашем случае). Для каждого класса он суммирует количество правильных и неправильных прогнозов. Модель спрогнозировала столбец «Отток» для тестового набора данных из 1407 строк и сравнила прогнозируемые результаты с историческими результатами.

Правильные прогнозы

Всего 1129 из 1407 тестовых строк. Это определяет Точность модели = 80,24%

Истинные положительные результаты (TP) = 204: строка была «Да», и модель предсказала для нее класс «Да».

True Negatives (TN) = 925: строка была «Нет», и модель предсказала для нее класс «Нет».

Ошибки

Всего 278 из 1407 тестовых рядов, 19,76%

Ложные срабатывания (FP) = 103: строка была «Нет», и модель предсказала для нее класс «Да».

False Negatives (FN) = 175: строка была «Да», и модель предсказала для нее класс «Нет».

Оценки других моделей

Обратите внимание, что мы описываем прогнозируемые значения как «Положительные» и «Отрицательные», а фактические значения — как «Истинные» и «Ложные».

Точность, (TP + TN) / ВСЕГО.

Из всех классов (положительных и отрицательных) 80,24% из них мы предсказали правильно.
Точность должна быть максимально возможной.

Точность, TP / (TP + FP).

Из всех классов, которые мы спрогнозировали как положительные, 66,45% на самом деле являются положительными.
Точность должна быть максимально возможной.

Отзыв, ТП / (ТП + FN).

Из всех положительных классов 53,83% мы предсказали правильно.
Отзыв должен быть как можно выше.

Оценка F1, 2 * (точность * полнота)/(точность + полнота).

Оценка F1 составляет 59,48%. Это помогает одновременно измерять полноту и точность.

Важность функции

Важность функции относится к тому, насколько эта Модель полагается на каждый столбец (функция) для получения точных прогнозов. Чем больше модель полагается на столбец (функция) для прогнозирования, тем важнее это для модели в целом. Для этого расчета Graphite использует важность функции перестановки.

Самая важная особенность - столбец

  • «срок пребывания» (количество месяцев, в течение которых клиент оставался в компании), затем
  • «Общие расходы»,
  • "Договор",
  • «Интернет-сервис» и так далее.

Например, «пол» и тот факт, что клиент является «пожилым гражданином» или нет, не имеют никакого влияния на отток.

В Graphite очень легко проверить любую функцию в отношении нашего целевого столбца («Отток»).

Легенда:

  • зеленый — клиенты, которые ушли
  • синий — клиенты, которые еще с нами

Обратите внимание, что большая часть оттока наблюдается при сроке пребывания 0–5 месяцев, а затем снова при сроке пребывания 50–55 месяцев. Уже есть ценная информация для команды по работе с клиентами.

Следующее понимание заключается в том, что большую часть оттока можно увидеть в контрактах, которые являются «ежемесячными»:

Касательно интернет-сервиса — вероятность оттока клиентов выше, если они используют «Оптоволокно».

Напоследок — прогнозы для новых клиентов!

Важно сказать, что Graphite автоматически развертывает обученную модель.

Это означает, что легко предсказать новые, невидимые данные об оттоке клиентов. Мы можем получить ответы на такие вопросы, как «Кто уйдет дальше»? «Какова вероятность такого исхода»?

После того, как вы обучили модель оттока с помощью Graphite, ваша команда предоставит вам информацию о новых клиентах.

Вы можете легко проверить, будут ли эти клиенты уходить — и вероятность оттока.

Мощный инструмент для увеличения удержания.

Давайте проверим прогноз оттока для одного из новых клиентов:

Обученная модель, основанная на исторических данных, утверждает, что с вероятностью 72 % она не упадет. Он не является целью команды по работе с клиентами. Она лучше подходит для дополнительных продаж или участия в тематическом исследовании, чем клиент, который в настоящее время рискует уйти.

Для другого нового клиента модель прогнозирует, что он БУДЕТ уходить:

Основными факторами, если вы помните, являются срок пребывания в должности, контракт и интернет-услуги — у этого клиента есть ежемесячный контракт и волоконная оптика, что говорит о том, что он, вероятно, взбивать.

Заключение

Отток — это естественный показатель здоровья для компаний, работающих по подписке. Выявление клиентов, которые недовольны предоставленными решениями, позволяет компаниям узнать о проблемах в работе, слабых сторонах продукта или тарифного плана, а также предпочтениях клиентов, чтобы заранее уменьшить причины оттока.
Кроме того, важно определить источники данных, чтобы иметь полная картина истории взаимодействия с клиентом. Чем качественнее набор данных, тем точнее будут прогнозы.

Я надеюсь, что это помогло вам понять, как легко обучать модели в программном обеспечении для машинного обучения без кода, таком как Graphite. Всего несколькими щелчками мыши мы обучаем модель машинного обучения и прогнозируем.

Вы можете изучить все другие модели Graphite здесь. Не стесняйтесь обучать свою модель машинного обучения на любом наборе данных с одинаковой легкостью или запланировать демонстрацию, если вам нужна помощь или есть какие-либо вопросы.

Надеюсь, вам понравилось!

Первоначально опубликовано на https://graphite-note.com 6 апреля 2022 г.