Логистическая регрессия: понимание математики, лежащей в основе алгоритма

Логистическая регрессия - это контролируемый алгоритм двоичной классификации. Вы, наверное, задаетесь вопросом, почему тогда это называется логистической регрессией, потому что для классификации используется концепция регрессии. Если это еще не имеет для вас смысла, не волнуйтесь, мы все разберем. В логистической регрессии целевое значение, которое мы хотим спрогнозировать, имеет значение ноль или один. Он либо принадлежит классу, поэтому значение равно 1, либо нет, и в этом случае значение равно 0, а распределение данных является биномиальным. Цель алгоритма - смоделировать вероятность возникновения события на основе независимых переменных (характеристик), которые мы ему предоставляем. Затем он классифицирует входные переменные на основе вероятности их принадлежности к категории. Я собираюсь провести вас шаг за шагом к функции логистической регрессии.

Чтобы понять логистическую регрессию более глубоко, мы должны понять концепцию отношения шансов и шансов.

Давайте кратко рассмотрим вероятность, теперь мы знаем, что вероятность события определяется выражением

Вероятность события тесно связана с вероятностью, но выражается по-разному. «Шансы» события определяются:

Коэффициенты дают нам отношение вероятности того, что событие произойдет, к тому, насколько оно маловероятно. Вот хороший пример, который я нашел в Интернете, который прекрасно объясняет концепцию: если скаковая лошадь пробежит 100 гонок и выиграет 25 раз и проиграет остальные 75 раз, вероятность выигрыша составляет 25/100 = 0,25 или 25%, но шансы выигрыша лошади составляет 25/75 = 0,333 или 1 победа на 3 поражения.

И соотношение шансов и есть его название. Шансы двух событий

Хорошо, но как отношение шансов соотносится с логистической регрессией?

Отношение шансов независимой переменной в логистической регрессии представляет, как изменение шансов на единицу увеличивает эту переменную, когда все другие переменные остаются постоянными.

Представьте, если бы мы обнаружили взаимосвязь между тем, как часто человек курит, и вероятностью того, что он может заболеть раком. Предположим, что коэффициент вероятности курения составляет 1,2, это означает, что шанс человека заболеть раком увеличивается на 1,2 на каждую единицу увеличения частоты курения.

Мы знаем, что цель логистической регрессии - смоделировать вероятность возникновения события на основе входных переменных, которые мы ему предоставляем. Как нам сопоставить линейную комбинацию входных переменных с областью от 0 до 1? Простой. Взяв натуральный логарифм (логарифм по основанию е) отношения шансов, также известный как функция логита.

Почти готово! Нам нужно сделать еще кое-что. Эта функция меняется по оси ординат. Как правило, независимая переменная располагается по оси x, а зависимые переменные - по оси y. Итак, мы хотим, чтобы функция изменяла ось y. Мы можем добиться этого, взяв функцию обратного логита. Виола! У нас есть формула логистической регрессии.

Где альфа в нашем случае - это линейная комбинация наших независимых переменных.

Эта функция также известна как сигмовидная функция. Сигмовидная функция - это математическая функция, имеющая характеристическую S-образную кривую или сигмовидную кривую.

Примечание. Логистическая регрессия использует так называемую оценку минимального правдоподобия MLE для оценки параметра линейной комбинации.

Порог:

Сигмоидальная функция сопоставляет входные данные со значениями в диапазоне от 0 до 1. Чтобы классифицировать, нам нужно присвоить ему значение либо 0, либо 1. Либо он принадлежит к категории, либо нет. Для этого мы используем пороговое значение. Кривая ROC может помочь определить значение порога для вашего проекта. В идеале функция прогнозирования использует 0,5 в качестве порога вероятности для определения 1 или 0. Таким образом, если значение> 0,5, цели присваивается 1, в противном случае - 0.

Вот и все. Теперь вы знаете математику, лежащую в основе работы логистической регрессии. Надеюсь, это было полезно!

Ресурс: Я использовал плейлист Брэндона Фольца на YouTube по логистической регрессии, чтобы узнать об этом алгоритме. Я рекомендую его канал на YouTube всем, кто хочет глубже понять статистику и вероятность, а также то, как они используются в машинном обучении.

Логистическая регрессия: понимание математики, лежащей в основе алгоритма

Порог:

Вопросы по теме