Машинное обучение без жаргона

Логистическая регрессия без технического жаргона + сравнение с моделями деревьев

Если вам нравится пицца, вы поймете разницу между логистической регрессией и случайным лесом!

Контур

  • Что такое логистическая регрессия и что в ней хорошего
  • Поймите разницу между этим алгоритмом и случайным лесом (тем, что мы упоминали на прошлой неделе), и какой из них лучше использовать с помощью ПИЦЦЫ пепперони!
  • Обновления на этой неделе с моей стороны

Логистическая регрессия очень часто используется, чтобы сообщить нам, является ли событие T или F, например, останется ли этот клиент или уйдет, это спам или не-спам, заразится ли кто-то этим заболеванием или нет и т. Д. Я видел пару раз, когда люди утверждают, что это наиболее часто используемый алгоритм. Итак, давай поговорим об этом.

Предположим, у нас есть 1000 новых клиентов в качестве горячих лидов в нашей воронке продаж. Мы знаем, что одни клиенты с большей вероятностью останутся с нами, чем другие. Другими словами, некоторые клиенты лучше соответствуют нашему профилю или требуют от нас меньше энергии для заключения сделки. Мы хотим определить, кто они.

А поскольку это взаимоисключающее мероприятие, чем больше вероятность того, что клиент останется с нами, тем меньше вероятность того, что он уйдет от нас. Итак, давайте сформулируем здесь нашу цель: нам нужна модель, которая, если Клиент А, скорее всего, останется с нами, она сообщит нам, что вероятность события «остаться» очень высока или вероятность «не остаться». (1-пребывание) низкий и наоборот. (Помните об этом, мы вернемся к этому позже!)

У нас есть три переменные: размер контрактов ($ value), тип клиентов (B2C против B2C) и каналы, по которым они узнали нас. Для нас очень интуитивно понятно, что нам нужно взглянуть на наших предыдущих клиентов и увидеть, какова взаимосвязь между этими тремя переменными и результатом. Это правильное направление, за исключением того, что здесь у нас есть проблема.

В традиционном линейном уравнении, которое мы выучили еще в средней или старшей школе, оно не представляет вероятности; это дает нам однозначный ответ. Чтобы показать вам, что я имею в виду, в уравнении 1 Изображение 3 мы можем использовать некоторые предыдущие данные и иметь функцию, которая вычисляет процент «пребывания» для A, или B, или C… и мы будем нужна другая функция для расчета процента «не остаться» для A, или B, или C. Эти два процента не обязательно будут давать в сумме 1, потому что они не представляют вероятности.

Поэтому некоторые умные парни начинают думать, что, если я модернизирую Y так, чтобы он напрямую давал результат, который сравнивает вероятность события «остаться» и вероятность события «не остаться», другими словами, он говорит мне какое событие скорее всего произойдет, чем другое (Изображение 4). И вот как мы переходим от функции 1) к функции 2)! Функция 2) напрямую дает нам соотношение вероятности «остаться» и «не остаться»

Так зачем и откуда это бревно? Разве мы не можем решить вопрос об отношениях сейчас?

Причина очень проста. Это потому, что, когда мы сравниваем, на сколько времени A больше, чем B, число может варьироваться от 0 до бесконечности. Подумайте об этом, вы в 100, 1000, 10000… раз круче, чем человек, который вам не нравится. Нет НИКАКИХ ОГРАНИЧЕНИЙ тому, насколько большим может быть «время» (конечно!). С другой стороны, если мы хотим выразить меньшую вероятность, у нас нет способа сделать это, потому что минимум числителя нашего уравнения 2), вероятность события A равна 0. Нет отрицательной вероятности.

Чтобы решить эту проблему, мы переходим от уравнения 2) к уравнению 3), записывая Y. Если вам нужны напоминания о том, как работает логарифм, я прикрепил изображение логарифмальной шкалы на основе 10 по сравнению с линейной шкалой ниже. Проще говоря, это просто другой способ измерения таких вещей, как футы в сантиметры. Теперь мы готовы использовать наши данные и вычислить эти коэффициенты!

Я считаю, что не многим в школе нравилось домашнее задание по решению этих коэффициентов. Вот почему мы хотим использовать алгоритм !! Нет ничего особенного. В контексте логистической регрессии после ввода данных ваш компьютер сообщает вам коэффициенты, а не волшебный ответ.

Наш компьютер получит лучшие коэффициенты для нас, попробовав несколько разных линий! Как определить лучший? Помните, в чем наша цель?

нам нужна модель, такая, что, если клиент A, скорее всего, останется с нами, она сообщит нам, что вероятность события «остаться» очень высока или вероятность «не остаться» (1-остановка) низкая, и наоборот. наоборот.

Таким образом, определение лучших коэффициентов - это те коэффициенты, которые позволяют большинству случаев удовлетворить нашу поставленную цель.

Итак, теперь компьютер дал нам коэффициенты. Мы выяснили взаимосвязь между тремя переменными и результатом! Теперь мы хотим получить представление о нашей функции. Однако помните, что мы изменили наш Y, поэтому его немного сложно интерпретировать. Давайте откажемся от точных цифр, чтобы пройти через весь процесс.

Первый коэффициент означает, что 1 единица увеличения x1 (все остальное не меняется), увеличит отношение вероятности x к вероятности (1-x) на 0,005 по логарифмической шкале. ; с другой стороны, 1 единица увеличения x2 будет уменьшать соотношение на 0,65 по логарифмической шкале.

Поскольку в жизни мы используем линейную шкалу вместо логарифмической шкалы, мы можем преобразовать ее обратно в линейную шкалу с помощью е. В примере с x2, ранее вероятность того, что событие «остаться» произойдет, в 1,17 раза выше, чем вероятность события «не оставаться». Однако после изменения x2 на 1 единицу, хотя вероятность «остановки» по-прежнему повышается, сейчас это соотношение снизилось до 0,52 раза.

Эй, я знаю, что это не самая простая вещь, о которой можно подумать, но если вы можете осознать это, вы знаете, в чем преимущество?

Вы не только знаете, кто, скорее всего, останется и куда вам следует направить свою энергию, но и среди тех, кто, вероятно, останется, вы даже знаете, кто с большей вероятностью останется! Итак, теперь вы можете ранжировать своих клиентов или иметь разные ожидаемые сроки для разных клиентов !!

Например, для менее вероятных клиентов резервируйте больше времени, потому что это будет долгая битва, и не огорчайтесь, если вы не получили его с первой попытки :) А для тех, у кого есть, намного больше скорее всего, будет «не оставаться», а затем остаться, нам даже не нужно сейчас беспокоиться !!

Хорошо, но пост на прошлой неделе показал, что Random Forest также может сказать нам, останется ли клиент или уйдет, зачем использовать другой метод?

Есть много углов, которые мы можем (и, вероятно, должны) использовать для ответа на этот вопрос, но я хочу дать здесь только наиболее интуитивный ответ.

Представьте, что ваш сосед по комнате просит вас разделить пиццу поровну на 2 части, и, поскольку вам нравится пепперони, вы думаете о том, как ее разрезать, чтобы получить максимальное количество пепперони. В логистической регрессии вы можете выбрать только отрезок, хотя у вас все еще есть много вариантов, тогда как в дереве решений такого правила нет.

Причина этого различия заключается в том, что в модели дерева мы используем набор логических утверждений (вопросы «да» или «нет»), чтобы делать наши выводы, тогда как для логистической регрессии мы определяем набор числовых отношений. Когда мы используем набор чисел для выражения отношения, мы уже заранее определили уравнение, заранее определенную структуру для выражения отношения. Например, у нас есть уравнения 1), 2) и 3), и мы хотим только найти коэффициенты. Когда мы используем набор логических утверждений, мы не указываем, на какую структуру будут похожи отношения.

Вы можете спросить, какой из них лучше?

Имейте в виду, что «хороша ли модель?» или «какую модель следует использовать?» Могу развернуться в огромную тему оценки моделей, о чем я планирую написать отдельный блог. Крайне важно, чтобы каждый понимал, как мы должны или можем оценивать модель, потому что во многих случаях, какую модель использовать в производстве, решают не только люди с солидным техническим образованием. А пока давайте обсудим основы.

Продолжая аналогию с пиццей, первый метод - это подсчитать, какая из них дает нам больше всего пепперони. Однако в большинстве случаев все не так однозначно. Если вы внимательно посмотрите на пиццу, используя разделение логистической регрессии, мы можем получить 7–7,5 пепперони, а модель дерева дает нам 8 пепперони. Нет очевидной разницы. Принимая во внимание, что позиции пепперони немного отличаются для каждой пиццы, логистическая регрессия иногда может превосходить древовидную модель. Вот почему вы видите, что специалист по обработке данных иногда использует 2 или 3 модели и видит, какая из них работает лучше всего.

Другой подход к размышлениям об этом - спросить: помимо точности модели, какая информация поможет вам лучше всего решить вашу бизнес-проблему? Как я упоминал в своей предыдущей статье, лучшая часть модели дерева (включая случайный лес) заключается в том, что она сообщает вам, какое логическое утверждение имеет наибольшее значение. В нашем примере с пиццей, если каждый прямоугольник является логическим утверждением, он будет самым левым, потому что дает нам три пепперони. Что касается логистической регрессии, то лучше всего то, что он не только дает нам пепперони, но также сообщает нам, какие пепперони являются самыми большими, и оценивает их для нас.

Следовательно, в контексте бизнеса, если я разрабатываю продукт и хочу улучшить функции, древовидная модель поможет нам определить, какую функцию наиболее важно улучшить, потому что эта функция принесет нам большинство клиентов, но если я хочу закрыть, как Как можно больше контрактов к концу месяца, логистическая регрессия подскажет нам, на каких клиентов ориентироваться в первую очередь, потому что они, скорее всего, останутся с нами с самого начала.

Еженедельное обновление !! Прошлая неделя была не самой продуктивной.

С понедельника по вторник, после того как я опубликовал свою предыдущую статью в понедельник вечером, я испытал почти паническую атаку, потому что я осознал некоторые ошибки, которые я сделал в статье (уже исправленные). Хотя я понимаю, что это процесс обучения, и я знаю, что как новый писатель, вероятно, никто даже не читал эту статью внимательно, я все равно чувствовал себя чрезвычайно смущенным. Так что я провожу эти два дня, чтобы убедиться, что я понимаю модель наизнанку.

В среду и четверг я готовился к двум заявлениям о приеме на работу, а в четверг у меня было одно собеседование в первом раунде. К сожалению, мой реферал сказал мне, что хотя HR, который проводил собеседование, дал мне согласие, мой потенциальный начальник подвел меня, потому что у меня не было до этого соответствующего опыта работы ☹

После этих напряженных эмоциональных дней я начал чувствовать легкое выгорание, и мне казалось, что я ничего не добился на этой неделе. Я также начал сомневаться в своей способности найти работу в области данных (какое-то время я просматривал разные объявления о вакансиях). Поэтому я немного сбавил обороты, вышел на прогулку, немного испек и потратил некоторое время на чтение книги под названием «Наука о данных для бизнеса». Чтение - одно из моих занятий по уходу за собой. Кроме того, это была потрясающая книга, и я планирую поделиться некоторыми мыслями после ее прочтения.

Помимо этого, я добился определенного прогресса в следующих областях:

  • Выбор модели и регуляризация: как и все методы уменьшения размерности, ROC, AUC
  • Подробнее об алгоритмах модели дерева: Ada boost, gradient boost и XGboost
  • Обобщение всех наблюдаемых моделей и понимание того, как их использовать. Чтобы подготовиться к этой статье, я понимаю логистическую регрессию, LDA и наивный байесовский анализ намного глубже, чем раньше.
  • Я действительно начал проект, но вместо сегментации клиентов я решил сделать тот, который прогнозирует отток клиентов. У меня не было особого прогресса, но я планирую закончить его на следующей неделе. Моя цель - использовать как случайный лес, так и логистическую регрессию.

Это все. Я хочу закончить этот пост веселой цитатой, чтобы напомнить себе и всем, кто чувствует легкое выгорание.

«Большие дела в жизни станут возможны только в том случае, если вы потратите время на небольшие действия по уходу за собой. »- Шанель Миллер

Увидимся на следующей неделе!