Логистическая регрессия — один из самых мощных и моих любимых методов контролируемой классификации. Он прост в использовании; однако, если вы забыли школьную математику, вам может быть трудно понять работу логистической регрессии.
Я верну вас к этой книге по математике, прежде чем углубиться в логистическую регрессию.
Давайте сначала разберемся с формулой линейной регрессии. Формула линейной регрессии
у=b0+b1X1+b2X2….+bnXn
В этом уравнении правая часть содержит независимые переменные, которые являются непрерывными числами. Это приведет к непрерывному числу для зависимой переменной y.
А вот и самое интересное.
Несмотря на то, что имя содержит регрессию, логистическая регрессия является методом уточнения. Он в основном используется в случаях, когда результат (целевая переменная) будет бинарным значением, таким как «Да» или «Нет», «Истина» или «Ложь», «Правильно» или «Неправильно» и т. д.
Таким образом, результатом уравнения должен быть двоичный результат, а не непрерывное число. Как преобразовать непрерывное число в двоичное?
Давайте задержимся здесь и давайте рассмотрим некоторые математические функции школьного уровня.
Бревно
Первое, что нужно понять, это функция журнала.
Силовую функцию трудно забыть. Итак, давайте сначала рассмотрим это.
Это было легко, 10 в степени 2 равно 100. Логарифмическое значение противоположно этому.
Если я запишу Log 100 с основанием 10, это означает, что я спрашиваю, в какой степени числа 10 будет 100. Ответ будет 2.
Журнал с основанием 10 называется общим журналом. Если основание не указано, оно принимается равным 2,718 и называется натуральным логарифмом.
Log 100 означает найти степень 2,718 (также представленную как e), чтобы получить 100. Это может быть показано как
Or
Значение будет 4,6.
Логит
Логит — это логарифм шансов P/(1-P), где P — вероятность. Это натуральный бревно. База принимается как e (2,718).
Формула логистической регрессии
Это означает, что y заменяется на Log (P/1-P), как показано ниже.
В качестве естественной базы предполагается бревенчатая. Приведенное выше уравнение в экспоненциальной форме преобразуется в
Расширить это дальше
Возвращаясь к уравнению линейной регрессии
у=b0+b1X1+b2X2….+bnXn
Это уравнение вернет Y как непрерывное число. Но приведенное выше уравнение P будет вычислять вероятность на основе формулы
И, вот где самое интересное. Независимо от того, какое значение y вы подставите в это уравнение, оно даст значение P между 0 и 1. И это правильно, потому что число вероятности всегда должно быть между 0 и 1.
Попробуй.
Я попробовал это со следующими значениями Y.
Это приведет к приведенному ниже графику
Теперь становится легко разделить результат на двоичный результат. Допустим, значение Y, вероятность которого меньше 0,5, приведет к результату «Да», а другие значения приведут к результату «Нет».
Ну вот!
Теперь вы понимаете суть логистической регрессии.
Ссылка: