Логистическая регрессия — это статистический алгоритм, используемый для моделирования связи между зависимой переменной и одной или несколькими независимыми переменными. Он в основном используется для прогнозирования бинарного результата (т. Е. Переменной только с двумя возможными значениями) на основе одной или нескольких переменных-предикторов. Например, его можно использовать для прогнозирования того, купит ли клиент продукт или нет, на основе его демографических данных.

Логистическая регрессия использует логистическую функцию для моделирования вероятности двоичной переменной отклика с учетом переменных-предикторов. Логистическая функция представляет собой S-образную кривую, которая находится в диапазоне от 0 до 1, что делает ее подходящей для моделирования бинарных результатов.

Логистическая функция

Логистическая функция, также известная как сигмовидная функция, определяется как:

σ(z)=1/1+ez1​

где z — линейная комбинация предикторов:

z = β0 ​+ β1 ​x1 ​+ β2 ​x2 ​+ ⋯ + βnxn

Здесь beta_0 — это термин перехвата, а beta_1, beta_2, …….., beta_n — коэффициенты для предикторов x_1, x_2, ……., x_n.

Логистическая функция сопоставляет любой вход z со значением от 0 до 1, что можно интерпретировать как вероятность двоичного результата. Если sigma(z) равно 0,5, прогнозируемый результат равен 1, а если sigma(z) ‹ 0,5, прогнозируемый результат равен 0.​

Оценка максимального правдоподобия

Коэффициенты beta_0, beta_1,………., beta_n в логистической функции оцениваются с использованием оценки максимального правдоподобия. Функция правдоподобия определяется как вероятность наблюдения данных при заданных параметрах модели. Для логистической регрессии функция правдоподобия имеет вид:

L(β)=∏i=1nσ(zi​)yi​(1−σ(zi​))1−yi

где y_i — двоичный результат для наблюдения i, а z_i — линейная комбинация предикторов для наблюдения i. Цель состоит в том, чтобы найти значения $\beta$, которые максимизируют функцию правдоподобия.

На практике чаще максимизируют функцию логарифмического правдоподобия, а не функцию правдоподобия, поскольку логарифм является монотонно возрастающей функцией. Функция логарифмического правдоподобия для логистической регрессии:

l(β)=∑i=1nyilog(σ(zi​))+(1−yi​)log( 1−σ(zi​))

Максимизировать функцию логарифмического правдоподобия можно с помощью алгоритмов оптимизации, таких как градиентный спуск или метод Ньютона.