Двоичная классификация включает в себя потерю 0/1 (невыпуклость), и когда данные не являются идеально разделимыми, нам нравится минимизировать количество ошибок или пропущенных классифицированных точек (yi (w ^ t * xi + b) ‹ 0)), тогда Задача состоит в том, чтобы найти оптимальные w и b, минимизирующие потери. Это снова задача оптимизации, в которой мы решаем следующее уравнение.

Где L — функция потерь 0/1, и если yi(w^t*xi + b) ‹ 0, это дает 1 (пропущенная классифицированная точка), иначе 0 (правильно классифицированная точка) — это изображение ниже.

Таким образом, во многих практических методах мы заменяем невыпуклую (например, с потерями 0/1) функцию на выпуклую функцию, потому что оптимизация невыпуклой функции очень сложна, алгоритм может застрять в локальном минимуме, который не соответствует фактическому минимальному значению целевая функция L(yi, f(xi)). где f(xi) = w^t*xi + b.

Основная идея состоит в том, чтобы работать с гладкой (дифференцируемой) функцией, которая является аппроксимацией потерь 0–1. Когда мы используем логистические потери (логарифмические потери) в качестве аппроксимации потерь 0–1 для решения проблемы классификации, это называется логистической регрессией. Может быть много приближений потерь 0–1, которые используются разными алгоритмами для решения проблемы классификации.

Приблизительно 0–1 потеря

Никогда не путайте с двумя разными обозначениями формулы потерь/затрат логистической регрессии, обе они абсолютно одинаковы, единственная разница - это метка класса y. когда y ∈ {1, -1}, где 1 для +ve класса, -1 для -ve класса, то функция логистических потерь, на которой мы не будем фокусироваться, определяется следующим образом

А когда y ∈ {0, 1}, то функция логистических потерь определяется следующим образом:

Где для каждой строки i в наборе данных y — результат, который может быть либо 0, либо 1. P — прогнозируемый вероятностный результат с применением уравнения логистической регрессии (P = e^x/1+e^x, где x = w^ т * х + б).

Из уравнения, когда y = 1, наша функция потерь становится log(pi) и если Pi приближается к 1, то потери стремятся к 0. Аналогично, когда y = 0, наша функция потерь становится log (1-pi) и если p приближается к 0, то потери снова имеют тенденцию приближаться к 0. Таким образом, мы просто умножаем логарифм реальной прогнозируемой вероятности для фактической метки класса.

когда переменная ответа (y) равна 1, тогда значение вероятности должно быть как можно выше. а когда он равен 0, то значение вероятности должно быть как можно меньше, и это сведет к минимуму общие потери журнала, которые приведены ниже.

Это была обычная модификация функции правдоподобия с логарифмом. Это точно такая же формула для функции правдоподобия, но с добавлением журнала. В конце концов, если мы сравним, получим одинаковую формулировку для всех трех интерпретаций логистической регрессии.