Что такое логистическая регрессия?

Логистическая регрессия – это алгоритм контролируемого машинного обучения, который в основном используется для задач классификации, целью которых является прогнозирование вероятности принадлежности экземпляра к данному классу или нет.

Это тип статистического анализа, который помогает нам понять взаимосвязь между набором входных переменных и выходной переменной, которая может принимать одно из двух возможных значений (например, да/нет, правда/ложь, 1 /0). Это достигается путем оценки вероятности того, что выходная переменная примет определенное значение при заданных значениях входных переменных.

Например, логистическую регрессию можно использовать для прогнозирования того, является ли электронное письмо спамом, на основе определенных характеристик электронного письма, таких как отправитель, строка темы и содержание.

Почему это называется регрессией, если это алгоритм классификации?

Термин «регрессия» в логистической регрессии относится к тому факту, что модель пытается предсказать вероятность категорического результата, например, купит ли кто-то продукт. Это отличается от линейной регрессии, которая используется для прогнозирования непрерывного результата, такого как цена продукта.

В логистической регрессии вероятность результата представлена ​​логистической функцией. Логистическая функция представляет собой сигмовидную кривую, имеющую диапазон значений от 0 до 1. Это означает, что прогнозируемая вероятность исхода может принимать любое значение от 0 до 1.

Гипотеза логистической регрессии

Гипотеза логистической регрессии основана на логистической функции (также известной как сигмовидная функция). В логистической регрессии мы стремимся смоделировать вероятность бинарного результата (например, 0 или 1) на основе входных признаков. Функция гипотезы логистической регрессии определяется следующим образом:

p(y = 1) = 1 / (1 + exp(-(β0 + β1x1 + β2x2)))

где:

  • p(y = 1) — вероятность того, что бинарный исход равен 1
  • β0 – точка пересечения
  • β1 и β2 — коэффициенты для переменных-предикторов x1 и x2.
  • ε - член ошибки

Сигмовидная функция — это математическая функция, имеющая S-образную кривую. Он используется для сопоставления прогнозируемых значений модели логистической регрессии со шкалой вероятности.

Модель логистической регрессии подгоняется к данным с использованием процедуры оценки максимального правдоподобия (MLE). Процедура MLE — это статистический метод, который находит параметры модели, которые максимизируют вероятность данных.

После того, как модель логистической регрессии будет соответствовать данным, ее можно использовать для прогнозирования вероятности бинарного результата для новых данных. Прогнозируемая вероятность рассчитывается как выход модели, которая представляет собой линейную комбинацию переменных-предикторов с применением к результату сигмоидальной функции.

Чтобы преобразовать предсказанные вероятности в фактические двоичные предсказания, часто применяется порог. Например, если порог установлен на 0,5, любая прогнозируемая вероятность выше 0,5 классифицируется как положительный класс (y = 1), а вероятности ниже 0,5 классифицируются как отрицательный класс (y = 0).

Предположения логистической регрессии

Логистическая регрессия имеет следующие допущения:

  1. Зависимая переменная должна быть бинарной. Это означает, что зависимая переменная может принимать только одно из двух значений, например «да» или «нет», «успех» или «неудача» или «активен». "или "умер".
  2. Независимые переменные должны быть линейно связаны с логарифмическими шансами зависимой переменной. Это означает, что независимые переменные должны иметь линейную связь с логарифмическими шансами зависимой переменной. Логарифм шансов является мерой шансов появления зависимой переменной и рассчитывается как логарифм шансов.
  3. Ошибки должны быть независимыми. Это означает, что ошибки в модели не должны быть коррелированы друг с другом.
  4. Ошибки должны иметь постоянную дисперсию. Это означает, что ошибки в модели должны иметь одинаковую дисперсию.
  5. Между независимыми переменными не должно быть мультиколлинеарности. Это означает, что независимые переменные не должны сильно коррелировать друг с другом.

Свойства логистической регрессии

Логистическая регрессия обладает следующими свойствами:

  1. Это линейная модель, то есть модель, линейная по параметрам.
  2. Это параметрическая модель, то есть модель, заданная набором параметров.
  3. Параметры логистической регрессии можно оценить с помощью оценки максимального правдоподобия.
  4. Прогнозы логистической регрессии — это вероятности, которые можно интерпретировать как вероятность того, что выходная переменная примет определенное значение при заданных значениях входных переменных.
  5. Логистическая функция, используемая в логистической регрессии, гарантирует, что прогнозируемые вероятности всегда находятся в диапазоне от 0 до 1.

Эти свойства делают логистическую регрессию мощным и гибким инструментом для задач классификации, где выходная переменная может принимать одно из двух возможных значений.

Преимущества логистической регрессии

Логистическая регрессия имеет следующие преимущества:

  1. Он прост в реализации и очень эффективен в обучении.
  2. Он обеспечивает меру того, насколько релевантна независимая переменная для прогнозирования зависимой переменной.
  3. Он может обрабатывать как непрерывные, так и категориальные входные переменные.
  4. Результатом логистической регрессии является вероятность, которую можно интерпретировать как вероятность того, что выходная переменная примет определенное значение при заданных значениях входных переменных.
  5. Логистическая регрессия широко используется и хорошо изучена, и для ее изучения и устранения неполадок доступно множество ресурсов.

Эти преимущества делают логистическую регрессию популярным выбором для задач классификации, где выходная переменная может принимать одно из двух возможных значений.

Ограничения логистической регрессии

Логистическая регрессия имеет следующие ограничения:

  1. Он требует, чтобы каждая точка данных была независимой от всех других точек данных.
  2. Это требует, чтобы между независимыми переменными была небольшая или отсутствовала мультиколлинеарность.
  3. Он может только предсказать категорический исход.
  4. Логистическая регрессия предполагает линейную связь между логит-преобразованием зависимой переменной и независимыми переменными.

Если это предположение не выполняется, результаты могут быть неточными. Эти ограничения следует учитывать при использовании логистической регрессии для задач классификации.

Подготовка данных для логистической регрессии

Чтобы реализовать логистическую регрессию в наборе данных, данные необходимо подготовить, некоторые из важных шагов для подготовки данных:

  1. Очистите и предварительно обработайте данные, обработав пропущенные значения и выбросы.
  2. Выберите соответствующие функции для модели логистической регрессии.
  3. Кодируйте категориальные переменные, используя такие методы, как однократное кодирование.
  4. Масштабируйте непрерывные переменные для лучшей сходимости во время оптимизации.
  5. Устраните дисбаланс классов, если он присутствует, используя такие методы, как избыточная или недостаточная выборка.
  6. Разделите данные на наборы для обучения и тестирования для оценки модели.
  7. Проверьте наличие мультиколлинеарности и обработайте ее, если она присутствует.

Метрики оценки для модели логистической регрессии

Существует множество показателей оценки, которые можно использовать для оценки производительности модели логистической регрессии.

Некоторые из наиболее распространенных показателей включают в себя:

  1. Точность
  2. Точность
  3. Отзывать
  4. F1-счет
  5. Кривая ROC-AUC

Эти метрики оценки дают разные точки зрения на производительность модели и используются в зависимости от конкретных требований и целей рассматриваемой проблемы.

Важно отметить, что все метрики оценки, перечисленные выше, предназначены для задач бинарной классификации. Для задач классификации с несколькими классами можно использовать множество других показателей оценки.

Матрица путаницы

Матрица путаницы представляет собой табличное представление, в котором обобщаются характеристики модели классификации. Он предоставляет подробную разбивку прогнозируемых и фактических меток классов. Матрица путаницы для задачи бинарной классификации состоит из четырех ячеек:

  • True Positive (TP): Модель правильно предсказала положительный класс.
  • True Negative (TN): Модель правильно предсказала отрицательный класс.
  • Ложный положительный результат (FP): модель неправильно предсказала положительный класс, когда фактический класс был отрицательным (ошибка типа I).
  • Ложноотрицательный (FN): модель неправильно предсказала отрицательный класс, когда фактический класс был положительным (ошибка типа II).

Матрица путаницы помогает оценить производительность модели, рассчитывая различные показатели:

  1. Точность: общая доля правильных прогнозов, рассчитываемая как (TP + TN) / (TP + TN + FP + FN).
  2. Точность. Доля истинно положительных прогнозов среди всех положительных прогнозов, рассчитанная как TP / (TP + FP).
  3. Отзыв (чувствительность или показатель истинного положительного результата): доля истинно положительных прогнозов среди всех фактически положительных случаев, рассчитанная как TP / (TP + FN).
  4. Специфичность (истинно отрицательный показатель): доля истинно отрицательных прогнозов среди всех фактических отрицательных случаев, рассчитанная как TN / (TN + FP).
  5. Оценка F1. Гармоническое среднее значение точности и полноты, обеспечивающее сбалансированный показатель производительности модели, рассчитывается как 2 * (точность * полнота) / (точность + полнота).

Заключение

В заключение, логистическая регрессия — это мощный и широко используемый алгоритм машинного обучения для задач классификации. Его легко реализовать и эффективно обучать, и он может обрабатывать как непрерывные, так и категориальные входные переменные.

Однако он также имеет некоторые ограничения и допущения, которые необходимо учитывать при его использовании для задач классификации. При правильной подготовке данных и тщательной оценке производительности модели с использованием соответствующих показателей логистическая регрессия может стать ценным инструментом для решения реальных проблем.

Я надеюсь, что эта статья стала полезным введением в логистическую регрессию и ее приложения.