До сих пор мы либо рассматривали оценку условных ожиданий непрерывных переменных (как в регрессии). Однако есть много ситуаций, когда нас интересуют отношения ввода-вывода, например, в регрессии, но выходная переменная является дискретной, а не непрерывной.

В частности, есть много ситуаций, когда у нас есть двоичные исходы (есть только два возможных исхода в определенной ситуации). В дополнение к двоичному результату у нас есть несколько входных переменных, которые могут быть или не быть непрерывными.

Как мы могли бы моделировать и анализировать такие данные? Мы могли бы попытаться придумать правило, которое угадывает двоичный выход из входных переменных. Это называется классификацией и является важной темой в статистике и машинном обучении.

Классификация предсказывает дискретную целевую метку Y. Классификация - это проблема отнесения новых наблюдений к классу, к которому они, скорее всего, принадлежат, на основе модели классификации, построенной на основе помеченных обучающих данных.

Точность ваших классификаций будет зависеть от эффективности выбранного вами алгоритма, от того, как вы его применяете, и от того, сколько полезных обучающих данных у вас есть.

Логистическая регрессия

Логистическая регрессия - это метод классификации, при котором модель выводит вероятность принадлежности категориальной целевой переменной Y к определенному классу.

Другими словами, логистическая регрессия - это метод, используемый для прогнозирования зависимой переменной с учетом набора независимых переменных, так что зависимая переменная является категориальной.

  • Зависимые переменные (Y): двоичная переменная ответа, содержащая такие значения, как 0 или 1, Да или Нет.
  • Независимая переменная (X): переменная-предиктор, используемая для прогнозирования переменной ответа.

По сути, результат логистической регрессии категоричен. Поэтому, когда результат имеет два возможных значения, всегда желательно иметь модель, которая предсказывает либо 0, либо 1, либо оценку вероятности от 0 до 1.

Хотя логистическая регрессия часто используется для двоичной классификации, где есть два класса, имейте в виду, что классификация может выполняться с любым количеством категорий (например, при присвоении рукописным цифрам метки от 0 до 9). Но мы используем логистическую регрессию только для двоичной классификации.

Хорошим примером проблемы классификации, в которой мы можем применить логистическую регрессию, является определение того, является ли кредитная заявка мошеннической.

В конечном счете, кредитор хочет знать, следует ли ему предоставлять заемщику ссуду или нет, и они имеют некоторую терпимость к риску того, что заявка на самом деле является мошеннической.

В этом случае цель логистической регрессии - вычислить вероятность (от 0% до 100%) того, что приложение является мошенничеством. Имея эти вероятности, мы можем установить некоторый порог, выше которого мы готовы предоставить заемщику ссуду, а ниже которого мы отклоняем его заявку на ссуду или помечаем заявку для дальнейшего рассмотрения.

Почему не линейная регрессия для прогнозирования вероятности?

Для категориальных переменных нецелесообразно использовать линейную регрессию, потому что значения отклика не измеряются по шкале отношений, а члены ошибки не имеют нормального распределения.

Кроме того, модель линейной регрессии может генерировать предсказанные значения в виде любого действительного числа в диапазоне от отрицательной до положительной бесконечности, тогда как категориальная переменная может принимать только ограниченное количество дискретных значений в указанном диапазоне.

Короче говоря, если вы обучили модель линейной регрессии на кучу примеров, где Y = 0 или 1, вы можете в конечном итоге предсказывать некоторые вероятности, которые меньше 0 или больше 1, что не имеет смысла. Это связано с тем, что линейная регрессия работает с переменными непрерывного отклика.

Итак, мы не можем использовать линейную регрессию. Вместо этого мы будем использовать модель логистической регрессии, предназначенную для присвоения вероятности от 0 до 1, указывающей, что Y принадлежит определенному классу.

Математика логистической регрессии

Математика в этом разделе интересна, но может быть более технической стороной.

Логистическая регрессия (логит-модель) - это модификация линейной регрессии, которая обеспечивает вывод вероятности от 0 до 1 путем применения сигмовидной функции, которая на графике выглядит как характерная S-образная кривая.

Сигмоидальная функция, которая сжимает значения от 0 до 1, задается как

Прежде чем двигаться дальше, давайте разберемся, что такое шансы и чем они отличаются от вероятности.

Шансы - это отношение того, что что-то происходит, к чему-то не происходит. Вероятность - это отношение того, что происходит, ко всему, что может случиться.

Рассмотрим пример. Шансы нашей команды на победу в игре равны 3: 5 (отношение количества выигранных игр к количеству проигранных игр), тогда вероятность победы вашей команды составляет 3: 8 (отношение количества выигранных игр к общему количеству сыгранных игр)

Чтобы рассчитать шансы по вероятности, мы

Где,

  • p - вероятность наступления события, в нашем случае вероятность выигрыша

Вероятность имеет верхнюю границу, т.е. вероятность события не может быть больше единицы. Но при преобразовании вероятности в шансы убирается верхняя граница. Но как насчет нижней границы вероятности. Логарифмирование шансов удаляет нижнюю границу.

Также одна из причин использовать логарифмические шансы заключается в том, что шансы на победу вашей команды могут быть от 0 до 1. Но шансы на проигрыш вашей команды могут быть от 1 до бесконечности. Из-за этой асимметрии между значениями шансов мы берем бревна. Ведение журнала () шансов решает проблему, делая все симметричным.

Журнал отношения вероятностей называется функцией логита и служит основой для логистической регрессии.

Если вы не знакомы с линейной регрессией, ознакомьтесь со следующей статьей Кратко о линейной регрессии.

Вспомните исходную форму нашей простой модели линейной регрессии, которую мы теперь назовем g (x), поскольку мы собираемся использовать ее в составной функции:

Где,

  • β0 - точка пересечения по оси Y
  • β1 - наклон прямой
  • x - значение координаты x
  • y - значение прогноза

Теперь, чтобы решить эту проблему получения выходных данных модели меньше 0 или больше 1, мы собираемся определить новую функцию F (g (x)), которая преобразует g (x) путем сжатия выходных данных линейной регрессии до значения в диапазоне [0,1].

Для этого мы вставляем g (x) в сигмоидальную функцию выше, в результате чего получаем функцию, которая выводит вероятность от 0 до 1:

Другими словами, мы вычисляем вероятность того, что обучающий пример принадлежит определенному классу: P (Y = 1).

Вывод вышеуказанного уравнения

Линейное уравнение имеет вид

Теперь мы прогнозируем шансы на победу

Возражение обеих сторон

Теперь позвольте

Затем

В логит-модели β1 теперь представляет скорость изменения логарифмического отношения шансов при изменении X. Другими словами, это «наклон логарифма шансов», а не «наклон вероятности».

Оценка максимального правдоподобия

Оценка максимального правдоподобия (MLE) - это метод оценки параметров модели логистической регрессии. Этот метод оценки является одним из самых распространенных … [читать дальше]

Понимание выходных данных модели логистической регрессии

Как упоминалось ранее, логистическая регрессия вычисляет результат только как 0 или 1. Итак, почему у нас есть кривая от 0 до 1? Это должна быть прямая линия в точках 0 и 1. Это связано с тем, что логистическая регрессия вычисляет вероятность.

Рассмотрим пример, в котором вероятность возникновения события составляет 0,6, относится ли этот выход к классу 0 или 1.

В этой ситуации устанавливается пороговое значение. Считайте, что пороговое значение равно 0,5. Это означает, что любое значение в диапазоне от 0 до 0,5 классифицируется как 0, а от 0,5 до 1 классифицируется как 1. Это даст двоичный результат, даже если результат является непрерывным.

Короче говоря, чтобы предсказать метку Y - спам / не спам, рак / не рак, мошенничество / не мошенничество и т. Д. - вы должны установить предел вероятности или порог.

Линейная регрессия против логистической регрессии

Заключение

Логистическая регрессия дает результаты в двоичном формате, который используется для прогнозирования результата категориальной зависимой переменной. Поскольку логистическая регрессия предсказывает вероятности, а не только классы, мы можем подогнать ее, используя вероятность.

Спасибо, что прочитали эту статью! Оставьте комментарий ниже, если у вас есть вопросы. Не забудьте подписаться на @ArunAddagatla, чтобы получать уведомления о последних статьях по Data Science и Deep Learning.

Вы можете связаться со мной в LinkedIn, Github, Kaggle или на странице Medium .com .