Вы когда-нибудь получали сообщение «Возвращайтесь, мы по вам скучаем!» рекламные электронные письма с персонализированной бесплатной подарочной картой или неожиданные предложения со скидкой 50% от тех компаний, у которых вы раньше покупали вещи? Я всегда блуждал, почему внезапная любовь и внимание — не для того, чтобы жаловаться на непрошеную любовь и внимание, которые я получаю, но что-то определенно кажется немного «sus» здесь. Затем я узнал о существовании моделей прогнозирования оттока клиентов, и все определенно начало обретать смысл. Было ли больно моему самолюбию знать, что это просто автоматическое письмо от модели машинного обучения, которое предсказало, что я с большей вероятностью покину бизнес? Конечно да, но я это переживу.

Моя попытка здесь состоит в том, чтобы научить любого, у кого есть бизнес (большой или малый), использовать свои собственные данные о клиентах, чтобы определить, какие из их текущих клиентов с большей вероятностью уйдут, используя бесплатную платформу машинного обучения под названием BigML, чтобы вы могли проявите к ним дополнительную любовь и снова сделайте их активными клиентами. А в демонстрационных целях я буду использовать набор данных от Kaggle с информацией о клиентах телекоммуникационного провайдера.

Начало работы с BigML

Для начала у Big ML есть набор вводных видеороликов, которые помогут любому начать работу с платформой. После того, как вы почувствуете платформу и все классные вещи, которые она может делать, перейдите на панель инструментов в правом углу и начните работу.

Как только вы доберетесь до своей панели инструментов, перейдите на вкладку источников и загрузите свой набор данных в формате csv или xls. А после того, как вы конвертируете файл из источника в набор данных с помощью функции «1-CLICK-DATSET», вы можете использовать функцию «ОБУЧЕНИЕ | ТЕСТ РАЗДЕЛИТЬ», чтобы случайным образом разделить набор данных на желаемое разделение (80–20/70– 30).

Теперь вы можете с легкостью приступить к созданию моделей машинного обучения. В этом примере мы создадим некоторые из самых популярных моделей контролируемой классификации для прогнозирования оттока: деревья решений, бутстрап-леса, случайные леса и логистическая регрессия.

Оценка модели

Прежде чем перейти к сравнению производительности моделей, было бы неплохо иметь представление о том, что эти модели делают и что означают некоторые из этих показателей оценки, поскольку «модель хороша ровно настолько, насколько хороши показатели, которые используются для ее оценки».

Что просто означают эти модели машинного обучения?

  • Дерева решений: «тип контролируемой модели машинного обучения, используемый для классификации или создания прогнозов на основе ответов на предыдущий набор вопросов»
  • Модель Bootstrap: «идея состоит в том, чтобы создать несколько подмножеств данных из обучающей выборки, выбранной случайным образом с заменой. Теперь каждый набор данных подмножества используется для обучения нескольких деревьев решений вместо одного. Используется среднее значение всех прогнозов из разных деревьев, что более надежно, чем одно дерево решений»
  • Случайные леса: «является расширением модели начальной загрузки. Требуется один дополнительный шаг, когда в дополнение к выбору случайного подмножества данных также используется случайный выбор функций, а не использование всех функций для выращивания деревьев ».
  • Логистическая регрессия: "Эта модель может использоваться только в том случае, если зависимая переменная является категориальной. Он используется для описания данных и объяснения взаимосвязи между одной зависимой категориальной переменной и одной или несколькими независимыми переменными»

Какие показатели мы используем и какие вопросы задают эти показатели в данном конкретном контексте?

  • Точность:сколько из всех клиентов были правильно отнесены к соответствующей категории?
  • Точность.Сколько из всех клиентов, которые, по прогнозам, уйдут, уйдут на самом деле?
  • Напоминаем:сколько из всех клиентов, которые действительно ушли, по прогнозам, ушли?
  • F-мера:среднее гармоническое значение точности и полноты модели

Более высокая точность является наиболее желанной метрикой в ​​большинстве соревнований по машинному обучению, но справедливо ли придавать такой же уровень важности точности в несбалансированном наборе данных, подобном этому, где 86% данных попадают в класс «Не отток» и только 14%? для «Чёрн». А это значит, что я могу предсказать, что кто-то не уйдет и будет прав в 86% случаев! Таким образом, лучшим показателем для оценки в таких случаях будет вместо этого смотреть на отзыв. Поскольку эта метрика дает точность нашей модели при прогнозировании интересующей классификации (в данном случае «оттока») вместо обеих категорий.

Теперь, когда у нас достаточно знаний о четырех моделях и метриках сравнения, мы можем начать сравнивать модели! Ниже приведены результаты, которые мы получаем от BigML, когда используем его функцию «Оценка модели».

Сравнение моделей

Подводя итог вышеизложенным выводам, мы можем использовать приведенную ниже таблицу, чтобы легко сравнить данные показатели оценки. И очевидно, что из метрик, которые мы обсуждали выше, модели Random Forest и Bootstrap Forest работают лучше всего из четырех моделей, которые мы использовали.

Теперь это все круто, но давайте не будем забывать о бизнес-задаче, которую мы изначально хотели решить. Наша задача заключалась не в том, чтобы выбрать самую эффективную модель машинного обучения; это должно было выяснить, кто из текущих клиентов, скорее всего, уйдет. И вы можете выполнить эту задачу на самом BigML, перейдя к своей модели и используя функцию «Предсказать», как показано ниже.

И это должно сделать это! Надеюсь, вы узнали, насколько удобно создавать модели машинного обучения с помощью BigML, а также поняли, как созданные нами выше модели можно использовать в качестве отправной точки в любом бизнесе для сокращения оттока. Так что очистите свои данные, используйте BigML для выявления этих рискованных клиентов и начните проявлять к ним немного любви, чтобы они остались с вашим бизнесом!