Логистическая регрессия — это контролируемый алгоритм обучения, используемый для задач классификации. Это тип обобщенной линейной модели, в которой используется логистическая функция для моделирования бинарной зависимой переменной.

Разница между логистической регрессией и линейной регрессией?

Линейная регрессия и логистическая регрессия являются алгоритмами обучения с учителем, но они используются для разных типов задач и имеют некоторые ключевые отличия.

  1. Вывод. Линейная регрессия используется для прогнозирования непрерывной переменной, тогда как логистическая регрессия используется для прогнозирования категориальной переменной. Выходными данными линейной регрессии будет любое действительное число, тогда как выходными данными логистической регрессии будет вероятность определенного класса.
  2. Функция: линейная регрессия моделирует связь между зависимой переменной и одной или несколькими независимыми переменными с помощью линейной функции, а логистическая регрессия моделирует связь между зависимой переменной и одной или несколькими независимыми переменными. независимыми переменными с помощью логистической функции, которая является сигмоидальной функцией и возвращает значение от 0 до 1.
  3. Предположения. Линейная регрессия предполагает линейную связь между входными и выходными переменными, а также то, что ошибки нормально распределены и имеют постоянную дисперсию. С другой стороны, логистическая регрессия не делает никаких предположений о распределении ошибок.
  4. Оценка. Модели линейной регрессии оцениваются с использованием таких показателей, как среднеквадратическая ошибка (MSE) и R-квадрат, тогда как модели логистической регрессии оцениваются с использованием таких показателей, как точность, прецизионность, полнота и показатель F1.
  5. Выбросы. Линейная регрессия чувствительна к выбросам, поскольку пытается уложить данные в прямую линию. Однако логистическая регрессия менее чувствительна к выбросам, поскольку она пытается подобрать наилучшую сигмовидную функцию для данных.

Таким образом, линейная регрессия используется, когда мы хотим предсказать непрерывную переменную, а логистическая регрессия используется, когда мы хотим предсказать категориальную переменную. Оба являются контролируемыми алгоритмами обучения, но их принципы работы различны.

Разбираем математику логистической регрессии

Формула, используемая для логистической регрессии, называется логистической функцией, которая также известна как сигмоидальная функция. Логистическая функция принимает линейную комбинацию входных переменных (также известных как функции) и набор параметров и выводит значение вероятности от 0 до 1. Конкретная форма логистической функции выглядит следующим образом:

p = 1 / (1 + exp(-z))
h(x) = p

Где p — вероятность положительного класса, exp — экспоненциальная функция, а z — линейная комбинация входных переменных и параметров , представленный следующим образом:

z = β0 + β1x1 + β2x2 + … + βn*xn

Здесь x1, x2, …, xn — входные переменные, а β0, β1, β2, …, βn — параметры (также известные как коэффициенты или веса), которые нужно учиться на данных. Параметр β0 называется термином перехвата и представляет логарифмические шансы положительного класса, когда все входные переменные равны нулю.

Параметры модели логистической регрессии изучаются с помощью метода, называемого оценка максимального правдоподобия (MLE). Цель MLE — найти набор параметров, который максимизирует вероятность наблюдаемых данных.

Как узнать значения параметров?

Если вы заметили, наша выходная вероятность (т.е. h(x)) зависит от входных признаков (x1, x2…) и параметров (β, β1, β2…). Чтобы улучшить нашу вероятностную модель, нам нужно найти наилучшие значения параметров для нашей сигмовидной функции. Это можно сделать, наблюдая прогнозируемые значения в сравнении с фактическими значениями.

Чтобы провести это сравнение, мы будем использовать функцию стоимости, называемую кросс-энтропийными потерями (или логарифмическими потерями). Эта функция неотрицательна и равна нулю, когда прогнозируемая вероятность равна истинной. ярлык класса. Цель состоит в том, чтобы минимизировать эту функцию, чтобы найти оптимальные параметры модели, максимально приблизив прогнозируемую вероятность к истинной метке класса. Он измеряет несходство между предсказанной вероятностью и истинной меткой класса.

Перекрестная энтропийная потеря определяется следующим образом:

positive_class = y^(i) log(h(x^(i)))
negative_class = (1 - y^(i)) log(1 - h(x^(i)))
J(β) = - (1/m) ∑i1..m = [positive_class + negative_class]

Где h(x) — прогнозируемая вероятность положительного класса при заданных входных переменных x, а y — истинная метка класса.x^(i) и >y^(i)i-й обучающий пример и его истинная метка класса соответственно, а m — количество обучающих примеров.

Сначала функция суммирует все примеры в обучающем наборе и для каждого примера вычисляет два члена. Первый член внутри суммы — это логарифм предсказанной вероятности истинного класса, y^(i) * log(h(x^(i))).

Второй член — это журнал предсказанной вероятности отрицательного класса, (1 — y^(i)) * log(1 — h(x^(i))).

Логарифм предсказанной вероятности истинного класса, y^(i) * log(h(x^(i))), положителен, а логарифм предсказанной вероятности отрицательного класса, (1 - y^( i)) * log(1 — h(x^(i))), отрицательно. Когда спрогнозированная вероятность близка к истинному классу, логарифм спрогнозированной вероятности истинного класса мал, а значит, мала и стоимость, и наоборот.

Таким образом, логистическая регрессия определяется логистической/сигмоидной функцией, которая принимает линейную комбинацию входных признаков и набора параметров и выводит вероятность положительного класса. Параметры логистической регрессии изучаются с помощью оценки максимального правдоподобия (MLE), чтобы найти набор параметров, который максимизирует вероятность наблюдаемых данных.