Логистическая регрессия — это статистический алгоритм, используемый для моделирования связи между зависимой переменной и одной или несколькими независимыми переменными. Он в основном используется для прогнозирования бинарного результата (т. Е. Переменной только с двумя возможными значениями) на основе одной или нескольких переменных-предикторов. Например, его можно использовать для прогнозирования того, купит ли клиент продукт или нет, на основе его демографических данных.
Логистическая регрессия использует логистическую функцию для моделирования вероятности двоичной переменной отклика с учетом переменных-предикторов. Логистическая функция представляет собой S-образную кривую, которая находится в диапазоне от 0 до 1, что делает ее подходящей для моделирования бинарных результатов.
Логистическая функция
Логистическая функция, также известная как сигмовидная функция, определяется как:
σ(z)=1/1+e−z1
где z — линейная комбинация предикторов:
z = β0 + β1 x1 + β2 x2 + ⋯ + βnxn
Здесь beta_0 — это термин перехвата, а beta_1, beta_2, …….., beta_n — коэффициенты для предикторов x_1, x_2, ……., x_n.
Логистическая функция сопоставляет любой вход z со значением от 0 до 1, что можно интерпретировать как вероятность двоичного результата. Если sigma(z) равно 0,5, прогнозируемый результат равен 1, а если sigma(z) ‹ 0,5, прогнозируемый результат равен 0.
Оценка максимального правдоподобия
Коэффициенты beta_0, beta_1,………., beta_n в логистической функции оцениваются с использованием оценки максимального правдоподобия. Функция правдоподобия определяется как вероятность наблюдения данных при заданных параметрах модели. Для логистической регрессии функция правдоподобия имеет вид:
L(β)=∏i=1nσ(zi)yi(1−σ(zi))1−yi
где y_i — двоичный результат для наблюдения i, а z_i — линейная комбинация предикторов для наблюдения i. Цель состоит в том, чтобы найти значения $\beta$, которые максимизируют функцию правдоподобия.
На практике чаще максимизируют функцию логарифмического правдоподобия, а не функцию правдоподобия, поскольку логарифм является монотонно возрастающей функцией. Функция логарифмического правдоподобия для логистической регрессии:
l(β)=∑i=1nyilog(σ(zi))+(1−yi)log( 1−σ(zi))
Максимизировать функцию логарифмического правдоподобия можно с помощью алгоритмов оптимизации, таких как градиентный спуск или метод Ньютона.