Классификационный анализ с регрессией

Краткое введение в логистическую регрессию с базовым кодом Python

Что такое логистическая регрессия?

Логистическая регрессия – это модель, используемая для прогнозирования вероятности определенного класса или события на основе одной или нескольких входных переменных. Он преобразует линейные отношения в вероятностные выходные данные с помощью логистической функции.

Вы можете задаться вопросом, в чем основное различие между линейной регрессией и логистической регрессией?

На изображении выше график показывает модель взаимосвязи между непрерывным предиктором(x) и вероятностью события или результата (y). Вероятность (y) варьируется от 0 до 1, поэтому вы можете видеть, что если вы используете линейную модель, она не очень хорошо подходит. Таким образом, чтобы эта модель имела прямое отношение, вы должны использовать нелинейную функцию, которая представляет собой сигмовидную кривую или S-образную функцию.

В качестве примера на изображении ниже мы видим тенденцию, что чем дольше вы учитесь, тем лучше результат или вероятность того, что вы сдадите предмет или экзамен. Используя линейную линию, кажется, что она подходит, но не кажется великолепной. Как видите, он прошел 0 или 1, и мы этого не хотим, так как все, что находится за его пределами, не имеет смысла. Итак, что мы используем?

Мы будем использовать сигмовидную кривую. На изображении ниже вы можете видеть, что он не выходит за пределы 0 или 1, но по-прежнему имеет тенденцию вверх и позволяет нам увидеть взаимосвязь между входными и выходными переменными.

Используя приведенный ниже пример, если человек учится 4 часа, у него будет вероятность 0,2 или 20% сдать экзамен. А если человек занимается хотя бы 5 часов имеет вероятность 0,75 или 75% сдать экзамен.

Примечание. Вместо поиска наилучшей подходящей линии путем минимизации квадратов невязок, как в обычном методе наименьших квадратов, мы используем другой подход с логистической регрессией — оценку максимального правдоподобия.

Переоснащение и недообучение

Следующие изображения помогут вам определить, является ли ваша модель хорошей или недостаточной.

Базовый код логистической регрессии в Python

Шаг 1. Импортируйте необходимые пакеты, свои данные и разделите входные и выходные переменные.

Шаг 2.Разделите обучающий и тестовый наборы и создайте экземпляр модели, которая представляет собой LogisticRegression, импортированную из Scikit-learn.

Шаг 3.Обучите модель, используя обучающие данные, затем оцените модель и постройте матрицу путаницы, чтобы получить наглядный график результатов.

Чтобы узнать больше о логистической регрессии, посетите раздел Data Science Infinity. Часть курса Логистическая регрессия охватывает общий обзор логистической регрессии и всего, что происходит под ее капотом, например, вероятность, шансы и логарифм (шансы), формула для сигмовидной кривой, MLE, как оценить точность классификации , расширенные методы оценки, как изменить порог классификации и многое другое.

Вы также можете ознакомиться с моим отзывом о курсе здесь.

Ссылки:





Дополнительные материалы на plainenglish.io