Предположим, у нас есть данные:
где y_i следует распределению Бернулли.
Мы хотим смоделировать функцию так, что
где phi — функция ядра от R^K до R^N.
В регрессии функция F_w не имела ограничений на значения, которые она могла принимать. Но в классификации мы хотим, чтобы значение F_w лежало в пределах [0,1], так как оно моделирует вероятность. Следовательно, мы принимаем F_w как логистическую функцию:
Предположим, что F_w представляет P(y_i = 1|X_i;w)
Поскольку y имеет значения либо 0, либо 1, мы можем записать вероятность как:
Теперь, если мы найдем вероятность данных и попытаемся максимизировать ее:
Принятие журнала:
Из приведенного выше уравнения видно, что максимизация вероятности аналогична минимизации перекрестной энтропийной потери.
Взяв производную от логарифмической вероятности:
Если мы приравняем производную к 0, то решения в замкнутой форме не получим.
Мы не можем принять гауссову модель для данных здесь, поскольку y принимает только два значения: 0 и 1, что, очевидно, не является гауссовым.
Следовательно, мы используем алгоритм градиентного восхождения для поиска оптимального w итеративным способом.
Мы можем использовать пакетные или стохастические варианты алгоритма градиентного восхождения с соответствующим критерием остановки. Я опускаю подробности об этом, поскольку основная цель этого поста — показать математический вывод проблемы логистической регрессии.