Вы, должно быть, поняли из изображения, что это метод, предназначенный для задач бинарной классификации. Причина, по которой она ограничивается бинарной классификацией, заключается в том, что мы используем вероятность, чтобы определить вероятность того, что что-то произойдет. Мы проверяем вероятность определенного результата и классифицируем наш прогноз на основе того, как результат сравнивается с пороговой вероятностью, которую мы устанавливаем.

Для тех, кто интересуется человеческим мозгом, интересно отметить, что его основной принцип очень похож на то, как наша базолатеральная миндалина (БЛА) классифицирует, следует ли опасаться обстоятельств.

Работающий

Здесь мы также предполагаем линейную зависимость между нашими входными данными (независимыми переменными) и выходными данными. Таким образом, даже в логистической регрессии мы начинаем с предположения о линейном отношении типа:

Однако проблема становится очевидной, поскольку такой линейный вывод может принимать значения из множества действительных чисел. Однако, чтобы найти вероятность, нам нужно, чтобы наши значения лежали в диапазоне [0,1].

Нам нужно использовать функцию, которая даст нам выходной диапазон, который перекрывается с возможным диапазоном выходных данных вероятности (от 0 до 1). Сигмовидная функция идеально подходит для этого.

Сигмовидная функция

Это позволит нам манипулировать любым значением, чтобы оно лежало в диапазоне (0,1).

Поэтому мы берем сигмоид (z), чтобы преобразовать диапазон входных признаков в значение, лежащее между 0 и 1.

Функция стоимости

Теперь мы сталкиваемся с проблемой определения коэффициентов. Для этого нам нужно определить функцию потерь, а затем применить градиентный спуск.

В отличие от линейной регрессии, мы не можем использовать функцию наименьшего квадрата ошибки, потому что полученная здесь функция не является выпуклой, в отличие от другой, которая была выпуклой. Проблема в том, что из-за невыпуклости мы можем получить локальные минимумы вместо глобальных.

y - метка, указанная в наборе данных

y’ is f(z)

Если вы хотите знать, почему мы используем журнал потерь;
Это — отличное видео, объясняющее, почему мы используем потери журнала в качестве функции стоимости.

Регуляризация

Регуляризация – это метод, используемый для предотвращения переобучения в моделях машинного обучения. Он работает путем добавления штрафного члена к функции потерь, что препятствует тому, чтобы модель присваивала большие веса функциям.

Существует два широко используемых типа регуляризации: L1 и L2. Регуляризация L1 использует абсолютное значение коэффициентов для установки верхней границы, в то время как регуляризация L2 использует квадрат коэффициентов.

У регуляризации L1 есть возможность выбирать признаки, потому что она может устанавливать коэффициенты менее важных признаков равными нулю. Это полезно для снижения сложности модели и смягчения проблемы мультиколлинеарности. Регуляризация L2 не обнуляет никакие коэффициенты, но наказывает большие коэффициенты. Это помогает предотвратить переоснащение, делая модель менее чувствительной к шуму в данных.