Что такое логистическая регрессия?

Логистическая регрессия — это статистический метод анализа набора данных, который имеет одну или несколько независимых переменных, связанных с определенным результатом. Он используется для предсказания бинарного результата (1/0, Да/Нет, Истина/Ложь).

В отличие от линейной регрессии, которая используется для моделирования непрерывной зависимой переменной, логистическая регрессия моделирует вероятность категориальной зависимой переменной. Результатом логистической регрессии является логистическая функция, которая возвращает вероятность возникновения определенного результата, когда переменные заполнены определенными входными данными.

Я уже рассказывал о линейной регрессии, вот ссылка на нее → Нажмите здесь

Какова цель логистической регрессии?

В логистической регрессии цель состоит в том, чтобы смоделировать взаимосвязь между независимыми переменными и зависимой бинарной переменной. Конечная цель состоит в том, чтобы использовать модель для прогнозирования будущих наблюдений.

Модель подходит с использованием оценки максимального правдоподобия, которая стремится найти значения коэффициентов модели, которые максимизируют вероятность наблюдения выборочных данных с учетом модели.

Модель можно использовать для понимания влияния отдельных независимых переменных на результат, а также для определения того, какие переменные наиболее важны для прогнозирования результата.

Реальный пример 1:

Некоторые учащиеся собирают данные в своем местном спортзале, чтобы делать прогнозы относительно людей, продолжающих тренироваться в этом спортзале через 6 месяцев.
Данные состоят из следующих переменных: возраст, вес, рост, доход, адрес, история тренировок и Оценка (на основе теста из 6 вопросов, когда люди впервые входят в систему).
Учащиеся могут использовать логистическую регрессию для моделирования взаимосвязи между этими независимыми переменными и бинарной зависимой переменной (независимо от того, продолжают ли люди посещать этот спортзал или нет).

Реальный пример 2:

У банка есть набор данных, состоящий из этих переменных: Студент, Баланс, Доход, По умолчанию.
- Студент: указывает, является ли физическое лицо студентом (1–0)
- Баланс: средний баланс, принадлежащий физическому лицу
- Доход: доход физического лица
- По умолчанию: Указывает, установлено ли значение по умолчанию для отдельного лица (1–0)
Зависимые переменные имеют значение По умолчанию. Допустим, банк построил модель логистической регрессии, которая использует «Баланс» для прогнозирования вероятности дефолтов. Вот визуализация.

На этой визуализации мы видим, что более высокие значения баланса связаны с более высокой вероятностью того, что отдельный человек не выполнит свои обязательства.

Как работает модель логистической регрессии?

Сигмовидная функция

Сигмовидная функция, также известная как логистическая функция, является основой логистической регрессии. Он преобразует входное значение в значение от 0 до 1, которое представляет вероятность положительного результата в задаче бинарной классификации.

Математическое уравнение для сигмовидной функции имеет вид:

Объяснение:
- где z – линейная комбинация независимых переменных (так же, как в формуле используется линейная регрессия)
- x и соответствующие им коэффициенты бета, представленные в виде:

Объяснение:
– Коэффициенты (b, w) представляют важность каждой независимой переменной в определении результата.

В заключение сигмоидальная функция преобразует линейную комбинацию независимых переменных и их коэффициентов в значение вероятности, которое можно использовать для бинарных прогнозов. Модель логистической регрессии обучается на наборе данных для оценки коэффициентов и прогнозирования.

Пример: С заданным смещением (b) и весами (w) найдите вероятность положительного класса (1).
b = 5, w₁ = 4, w₂ = -4, x₁ = 2, x₂ = 3
Решим:
z = 5 + (4) * 2 + (-4) * 3
z = 1
Поставьте z на место → вероятность положительного класса = 0,731

Как логистическая регрессия работает как алгоритм машинного обучения?

Логистическая регрессия в машинном обучении выполняется с использованием статистических формул в статистике.
Основное внимание уделяется использованию логистической регрессии в качестве прогностической модели, целью которой является использование независимых переменных для прогнозирования бинарного результата на новых данных.
Log Loss (перекрестная энтропийная потеря) — это часто используемый показатель для оценки производительности модели логистической регрессии. Log Loss — это мера разницы между прогнозируемыми вероятностями и фактическими бинарными результатами.

Объяснение:
- m
 – количество наблюдений
 – y – фактическое бинарный результат (0 или 1)
 – p(ŷi) – прогнозируемая вероятность положительного класса
 – log  — натуральный логарифм.
Log Loss измеряет несоответствие между прогнозируемыми вероятностями и фактическими бинарными результатами в логарифмической шкале. Различие выражается как отрицательное значение, где меньшая логарифмическая потеря указывает на более близкое соответствие между прогнозируемыми вероятностями и фактическими бинарными результатами.

Вкратце, в логистической регрессии оптимизация — это процесс нахождения коэффициентов независимых переменных, которые минимизируют потери журнала.

Этот процесс минимизации использует алгоритмы оптимизации, такие как градиентный спуск, стохастический градиентный спуск и метод Ньютона-Рафсона.

Как работает градиентный спуск в логистической регрессии?

Алгоритм градиентного спуска — широко используемый алгоритм оптимизации, который итеративно обновляет коэффициенты в направлении отрицательного градиента логарифмических потерь. Пока коэффициенты не достигнут минимального значения Log Loss.

Объяснение:
 –
левый Θj обновлен, правый Θj — старый.
α — скорость обучения.
J(Θ) объясняется после этого.
 — Получено обновленное значение Θj путем умножения частной производной на α и вычитания его из старого значения Θj.
Эти операции приводят к минимизации потерь журнала. Поэтому оптимальные коэффициенты.

Объяснение:
- m
 – количество наблюдений
 – y – фактическое бинарный исход (0 или 1)
 –  – прогнозируемая вероятность положительного класса (1)
 – log  — натуральный логарифм.
Зная это;
— тогда правая часть — это противоположность фактическому бинарному результату, а внутри логарифма — прогнозируемая вероятность отрицательного класса (0).

Некоторые вопросы почему:

Почему меньшая логарифмическая потеря (кросс-энтропийная потеря) указывает на более близкое совпадение?
В бинарной классификации прогнозируемая вероятность положительного класса (hø) должна быть близка к 1, если фактический бинарный результат равен 1 и близок к 0, если фактический двоичный результат равен 0. Поэтому, когда Log Loss мал, это означает, что прогнозируемые вероятности близки к фактическим двоичным результатам, что указывает на хорошее совпадение.

Почему это называется потерей перекрестной энтропии?
Перекрестная энтропия — это мера несходства между двумя распределениями вероятностей. И это называется кросс-энтропийной потерей, поскольку измеряет разницу между предсказанным распределением вероятностей и истинным распределением бинарных результатов.

Каковы метрики оценки для задач классификации?

Матрица путаницы

Матрица путаницы — это таблица, используемая для оценки производительности бинарной или многоклассовой модели классификации. Матрица сравнивает прогнозируемые значения с фактическими значениями и резюмирует эффективность по следующим параметрам:
- Истинно положительные результаты (TP): количество случаев, которые правильно классифицируются как положительные.
- Ложноположительные результаты (FP): количество случаев, которые ошибочно классифицируются как положительные.
- Истинно отрицательные результаты (TN): количество случаев, правильно классифицированы как отрицательные.
 — Ложноотрицательные (FN): количество экземпляров, которые неправильно классифицируются как отрицательные.

Вот изображение для лучшего понимания матрицы путаницы → Нажмите здесь

Компоненты матрицы путаницы можно использовать для расчета нескольких показателей оценки, таких как точность, воспроизводимость, полнота, оценка F1 и ROC AUC.

Точность. Этот показатель измеряет количество правильных прогнозов, сделанных моделью, деленное на общее количество прогнозов.
Из матрицы путаницы → (TP + TN) / (TP + TN + FP + FN)

Точность. Точность измеряет долю положительных прогнозов, которые на самом деле являются положительными.
Из матрицы путаницы → TP / (TP + FP)

Отзыв (чувствительность или доля истинно положительных результатов). Отзыв измеряет долю положительных экземпляров, которые были правильно классифицированы.
Из матрицы путаницы → TP / (TP + FN)

Показатель F1. Показатель F1 – это гармоническое среднее значение точности и полноты, а также хороший показатель для измерения общей производительности классификатора, особенно при несбалансированном распределении классов.
Из матрицы путаницы → 2 * (Точность * Отзыв) / (Точность + Отзыв)

ROC-AUC (рабочая характеристика приемника — область под кривой): ROC-AUC — это показатель, который измеряет производительность двоичного классификатора. Он вычисляет площадь под кривой ROC, которая представляет собой график отношения истинного положительного результата (отзыва) к проценту ложного положительного результата.
Частота истинно положительных результатов (TPR): TP / (TP + FN)
Частота ложноположительных результатов (FPR): (FP / (FP + TN)

ROC AUC — это площадь под ROC-кривой. Это значение от 0 до 1, где значение 1 представляет идеальный классификатор, а значение 0,5 представляет случайный классификатор. ROC AUC можно рассчитать с помощью численного интегрирования.

Каков порог классификации?

Порог классификации — это значение, которое используется для преобразования предсказанных вероятностей бинарного классификатора в метки бинарного класса (1–0).
Выбранный порог может оказать существенное влияние на производительность классификатора. Потому что это влияет на баланс между истинно положительными показателями и ложноположительными показателями. Например, если порог установлен слишком низко, будет много ложных срабатываний, а если порог установлен слишком высоко, будет много ложноотрицательных результатов.

AUC (площадь под кривой) — это мера общей производительности бинарного классификатора по всем возможным пороговым значениям классификации.

Как решить, какие показатели оценки использовать?

Выбор показателей оценки зависит от нескольких факторов, в том числе:

  • Цели проблемы классификации. Различные приложения преследуют разные цели, например максимальное повышение точности, минимизация ложноотрицательных или ложноположительных результатов. Метрика оценки должна соответствовать целям проблемы.
  • Распределение классов. Если классы несбалансированы, точность может быть не лучшим показателем оценки. Другие показатели, такие как точность, полнота, оценка F1 или ROC AUC, могут быть более подходящими.
  • Стоимость ложноположительных и ложноотрицательных результатов. Метрика оценки должна учитывать стоимость ложноположительных и ложноотрицательных результатов. Чтобы лучше понять, попробуйте прочитать, где я объяснил, что такое FP и FN.
  • Порог для принятия решения. Выбор порога для принятия решения может повлиять на производительность классификатора. Такие метрики, как ROC AUC, обеспечивают независимую от порога меру производительности.

Короче говоря, чтобы получить полное представление о производительности классификатора, рекомендуется использовать несколько показателей оценки.

Пример. Заполните матрицу путаницы и рассчитайте показатели успеха на основе 1000 транзакций по кредитным картам, включая 990 обычных транзакций и 10 мошеннических транзакций.

Точность → (TP + TN) / (TP + TN + FP + FN) → (5 + 900) / 1000 = 0,905 Точность → TP / (TP + FP) → 5 / (5 + 90) = 0 ,05
Отзыв → TP / (TP + FN) → 5 / (5 + 5) = 0,50
F1 → 2 * (Точность * Отзыв) / (Точность + Отзыв) → 2 * 0,025 / 0,055 = 0,09
Этот дисбаланс в распределении классов привел к обманчиво высокому показателю точности. Другие метрики обеспечили лучшую оценку модели, поэтому лучше использовать несколько метрик оценки.

Я надеюсь, что вы нашли эту статью полезной. Спасибо за прочтение…

Связанная статья:

Что такое линейная регрессия?

Что-то новое:

Что такое пожизненная ценность клиента?

Контакт:

Мой Линкедин