Логистическая регрессия — один из самых мощных и моих любимых методов контролируемой классификации. Он прост в использовании; однако, если вы забыли школьную математику, вам может быть трудно понять работу логистической регрессии.

Я верну вас к этой книге по математике, прежде чем углубиться в логистическую регрессию.

Давайте сначала разберемся с формулой линейной регрессии. Формула линейной регрессии

у=b0+b1X1+b2X2….+bnXn

В этом уравнении правая часть содержит независимые переменные, которые являются непрерывными числами. Это приведет к непрерывному числу для зависимой переменной y.

А вот и самое интересное.

Несмотря на то, что имя содержит регрессию, логистическая регрессия является методом уточнения. Он в основном используется в случаях, когда результат (целевая переменная) будет бинарным значением, таким как «Да» или «Нет», «Истина» или «Ложь», «Правильно» или «Неправильно» и т. д.

Таким образом, результатом уравнения должен быть двоичный результат, а не непрерывное число. Как преобразовать непрерывное число в двоичное?

Давайте задержимся здесь и давайте рассмотрим некоторые математические функции школьного уровня.

Бревно

Первое, что нужно понять, это функция журнала.

Силовую функцию трудно забыть. Итак, давайте сначала рассмотрим это.

Это было легко, 10 в степени 2 равно 100. Логарифмическое значение противоположно этому.

Если я запишу Log 100 с основанием 10, это означает, что я спрашиваю, в какой степени числа 10 будет 100. Ответ будет 2.

Журнал с основанием 10 называется общим журналом. Если основание не указано, оно принимается равным 2,718 и называется натуральным логарифмом.

Log 100 означает найти степень 2,718 (также представленную как e), чтобы получить 100. Это может быть показано как

Or

Значение будет 4,6.

Логит

Логит — это логарифм шансов P/(1-P), где P — вероятность. Это натуральный бревно. База принимается как e (2,718).

Формула логистической регрессии

Это означает, что y заменяется на Log (P/1-P), как показано ниже.

В качестве естественной базы предполагается бревенчатая. Приведенное выше уравнение в экспоненциальной форме преобразуется в

Расширить это дальше

Возвращаясь к уравнению линейной регрессии

у=b0+b1X1+b2X2….+bnXn

Это уравнение вернет Y как непрерывное число. Но приведенное выше уравнение P будет вычислять вероятность на основе формулы

И, вот где самое интересное. Независимо от того, какое значение y вы подставите в это уравнение, оно даст значение P между 0 и 1. И это правильно, потому что число вероятности всегда должно быть между 0 и 1.

Попробуй.

Я попробовал это со следующими значениями Y.

Это приведет к приведенному ниже графику

Теперь становится легко разделить результат на двоичный результат. Допустим, значение Y, вероятность которого меньше 0,5, приведет к результату «Да», а другие значения приведут к результату «Нет».

Ну вот!

Теперь вы понимаете суть логистической регрессии.

Ссылка: