Предположим, у нас есть данные:

где y_i следует распределению Бернулли.

Мы хотим смоделировать функцию так, что

где phi — функция ядра от R^K до R^N.

В регрессии функция F_w не имела ограничений на значения, которые она могла принимать. Но в классификации мы хотим, чтобы значение F_w лежало в пределах [0,1], так как оно моделирует вероятность. Следовательно, мы принимаем F_w как логистическую функцию:

Предположим, что F_w представляет P(y_i = 1|X_i;w)

Поскольку y имеет значения либо 0, либо 1, мы можем записать вероятность как:

Теперь, если мы найдем вероятность данных и попытаемся максимизировать ее:

Принятие журнала:

Из приведенного выше уравнения видно, что максимизация вероятности аналогична минимизации перекрестной энтропийной потери.

Взяв производную от логарифмической вероятности:

Если мы приравняем производную к 0, то решения в замкнутой форме не получим.

Мы не можем принять гауссову модель для данных здесь, поскольку y принимает только два значения: 0 и 1, что, очевидно, не является гауссовым.

Следовательно, мы используем алгоритм градиентного восхождения для поиска оптимального w итеративным способом.

Мы можем использовать пакетные или стохастические варианты алгоритма градиентного восхождения с соответствующим критерием остановки. Я опускаю подробности об этом, поскольку основная цель этого поста — показать математический вывод проблемы логистической регрессии.