Обучение с учителем: логистическая регрессия от основ до эксперта

Что такое обучение с учителем?

Алгоритмы машинного обучения с учителем выполняются, когда наши данные помечаются. У нас есть два типа алгоритмов машинного обучения с учителем

Регрессия.
Классификация.

1. Регресс

В этом блоге объясняется: Нажмите здесь.

Настройка гиперпараметров для линейной регрессии: Нажмите здесь

2. Классификация

Когда мы будем использовать классификационное обучение с учителем?

Классификация - это метод, используемый для прогнозирования Категориальной переменной в целевом столбце или зависимой переменной на основе независимых характеристик. Выходные данные для задачи классификации будут в двоичном классе или мультиклассе. Это подпадает под контролируемую технику. Это статистический инструмент, используемый для определения взаимосвязи между выходной переменной, зависимой переменной и одной или несколькими переменными, часто называемыми независимыми переменными.

У нас много алгоритмов по классификации

Логистическая регрессия.

2. Дерево решений.

3. Случайный лес.

4. KNN

5. Navie Baies.

6. Ada Boosting

7. XG Boost

8. Повышение градиента

Это наиболее частые и популярные алгоритмы машинного обучения в задачах классификации.

Давайте обсудим простой и самый популярный алгоритм в задаче классификации.

1. ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ

Это потому, что он построен на линейной регрессии. Логистическая регрессия - еще один популярный алгоритм ИИ, способный предоставлять двоичные результаты. Это означает, что модель может как предсказать результат, так и указать один из двух классов их значения. Функция также основана на изменении весов алгоритмов, но отличается, поскольку для преобразования результата используется функция нелинейной логики. Эта функция может быть представлена в виде S-образной линии (или) сигмовидной кривой, отделяющей истинные значения от ложных.

Требования к успеху такие же, как и для линейной регрессии - удаление одних и тех же входных выборок значений и уменьшение количества шума (данные с низким значением). Это довольно простая функция, которую можно освоить относительно быстро, и она отлично подходит для выполнения двоичной классификации. Цель логистической регрессии - свести к минимуму ошибки с помощью Log Loss.

Уравнение логистической регрессии выводится из уравнения прямой линии.

Y=C+B1X1+ B2X2+…… + Bn*Xn

Диапазон значений от -inf до + inf. Но в логистической регрессии нам нужно предсказать значения от 0 до 1, чтобы преобразовать Y.

Если Y = 0, то 0

Если Y равно 1-Y, то Y = 1, тогда бесконечность

Давайте продолжим преобразование, чтобы получить диапазон от -inf до + inf

Журнал (Y / 1-Y) = ›Y = C + B1 * X1 + B2 * X2 + …… + Bn * Xn

Сделать в диапазоне вероятностей от 0 до 1. Воспользуемся функцией сигмовидной кривой.

Сигмовидная кривая

Сигмовидная кривая имеет все необходимые свойства: чрезвычайно низкие значения в начале, чрезвычайно высокие значения в конце и промежуточные значения в середине, это хороший выбор для моделирования значения вероятности события. Если оценочная вероятность превышает 50%, то модель предсказывает, что экземпляр принадлежит к этому классу (так называемый положительный класс, помеченный «1»), или же он предсказывает, что он не принадлежит (т. е. принадлежит к отрицательный класс, помеченный как «0»). Это делает его двоичным классификатором.

Красная линия в центре - это пороговая линия.

Потеря журнала

В логистической регрессии выходом может быть вероятность «да» (или равная 1). Эта вероятность представляет собой значение от 0 до 1. Логарифмические потери (логарифмические потери) измеряют производительность классификатора, где прогнозируемый результат представляет собой значение вероятности от 0 до 1. Если наши прогнозы модели верны, то наши логарифмические потери будут на 0, иначе больше чем 0. Помните, что чем ниже значение потерь журнала, тем выше точность нашей модели.

Журнал потерь = y log (p) + (1-y) log (1-p)

Где p - значение вероятности y

Допущения логистической регрессии

1. Независимость ошибок, при которой результаты всех групп выборки отделены друг от друга (т. Е. Отсутствуют повторяющиеся ответы).

2. Линейность в логите для любых непрерывных независимых переменных.

3. Отсутствие мультиколлинеарности.

4. Отсутствие сильных и влиятельных выбросов.

Прежде чем переходить к настройке гиперпараметров, нам нужно изучить показатели производительности для задачи общей классификации.

Блог о показателях производительности для задач классификации: Нажмите здесь

Мы узнали точность, отзыв, точность, специфичность, чувствительность и т. Д. Мы можем использовать настройку гиперпараметров для логистической регрессии.

Настройка гиперпараметров

В логистической регрессии настройка выполняется для корректировки пороговых значений кривой. Принадлежит ли точка к этому классу или нет. Он уменьшает или увеличивает оптимальное значение отсечки для определения наилучшего значения отсечки. Причина выполнения настройки параметров - уменьшить потери журнала модели. Эти два метода настройки пороговых значений.

1. Затратный метод.

2. Метод индекса Юдена.

1. Затратный метод

Анализ затрат - один из методов определения оптимального порогового значения. Стоимость рассчитывается при различных значениях отсечения для достижения разумного баланса между ложными срабатываниями и ложными отрицаниями, когда известна стоимость ложных срабатываний и ложных отрицаний. В моделировании логистической регрессии точка отсечения - это точка, в которой лицо, принимающее решение, решает, принять или отклонить.

Модель полной логистической регрессии имеет разные значения для ложноположительных (FP) и ложноотрицательных (FN). Таким образом, мы можем использовать затратный метод для расчета оптимального значения отсечения. В этом методе мы находим оптимальное значение отсечения, при котором общие затраты минимальны. Общая стоимость рассчитывается по формуле:

total_cost = FN x C_1 + FP x C_2

Где,
C_1: стоимость ложных срабатываний.
C_2: стоимость ложных срабатываний.

Стоимость может быть определена с использованием бизнес-знаний.

2. Индекс Юдена

Это еще один метод расчета порогового значения для нашей модели. Индекс Юдена - это вероятность отсечения классификации, при которой (Чувствительность + Специфичность - 1) максимальна.

Индекс Юдена = макс (Чувствительность + Специфичность - 1)

(OR)

= макс (TPR + TNR - 1)

(OR)

= макс (TPR - FPR)

После того, как вы настроите параметры логистической регрессии, нам нужно выполнить выбор функций, чтобы удалить недостаточные функции из нашей модели. Следовательно, это снижает сложность модели.

Выбор функции

Обратное устранение
Прямой выбор
Рекурсивное исключение признаков (RFE).

Преимущества логистической регрессии

Очень быстро для неизвестных записей
Он хорошо работает с линейно разделяемыми данными.
В нашей модели нет дисперсионных ошибок
Это легкий и простой алгоритм работы

Недостатки логистической регрессии

Будучи простым, он не научится изучать сложность, модель проблемы будет давать сбои в работе на низком уровне.
Он строит линейные границы.

Сноски

Наша цель логистической регрессии - минимизировать логарифмические потери модели, и наша модель не должна иметь больше ошибок дисперсии и ошибки смещения. Мы должны соответствующим образом настроить модель, чтобы сбалансировать смещение и дисперсию.

Да, это был длинный, но наиболее часто используемый в отраслях, популярный и простой алгоритм под задачей классификации.

Надеюсь, вам понравился этот блог

Спасибо за прочтение :)