Авторы: Раджеш Шридхар Бхат *, Сурадип Чакраборти * (* означает равный вклад).

В этом сообщении блога мы в основном сравниваем «потерю журнала» и «среднеквадратичную ошибку» для логистической регрессии и показываем, почему рекомендуется потеря журнала. для того же на основе эмпирического и математического анализа.

Уравнения для обеих функций потерь следующие:

Потеря журнала:

Среднеквадратичный убыток:

В двух приведенных выше уравнениях

y: фактическая метка

ŷ: прогнозируемое значение

n: количество классов

Допустим, у нас есть набор данных с 2 классами (n = 2), а метки представлены как «0» и «1».

Теперь мы вычисляем значение потерь при полном несоответствии между прогнозируемыми значениями и фактическими метками и выясняем, насколько потеря журнала лучше, чем MSE.

Например:

Скажем

  • Фактическая метка для данного образца в наборе данных - «1».
  • Прогноз по модели после применения сигмоидной функции = 0

Величина потерь при использовании MSE:

(1- 0)² = 1

Значение потери при использовании потери журнала:

Прежде чем вводить значения для уравнения потерь, мы можем посмотреть, как выглядит график log (x).

Как видно из приведенного выше графика, поскольку x стремится к 0, log (x) стремится к -infinity.

Следовательно, размер убытка будет:

- (1 * log (0) + 0 * log (1)) = стремится к бесконечности !!

Как видно выше, значение потерь с использованием MSE было намного меньше по сравнению со значением потерь, вычисленным с помощью функции потерь журнала. Следовательно, для нас совершенно очевидно, что MSE не наказывает за неправильную классификацию даже за идеальное несоответствие!

Однако, если существует полное совпадение между прогнозируемыми значениями и фактическими метками, оба значения потерь будут равны «0», как показано ниже.

Фактический ярлык: «1»

Прогноз: «1»

MSE: (1–1) ² = 0

Потеря журнала: - (1 * журнал (1) + 0 * журнал (0)) = 0

Здесь мы показали, что MSE - не лучший выбор для задач двоичной классификации. Но то же самое можно распространить и на задачи классификации нескольких классов, учитывая, что целевые значения кодируются без промедления.

MSE и проблема невыпуклости в логистической регрессии.

В сценариях классификации мы часто используем методы на основе градиента (Ньютон-Рафсон, градиентный спуск и т. Д.), Чтобы найти оптимальные значения для коэффициентов путем минимизации функции потерь. Следовательно, если функция потерь не является выпуклой, не гарантируется, что мы всегда достигнем глобальных минимумов, скорее мы можем застрять в локальных минимумах.

Прежде чем углубиться в то, почему MSE не является выпуклой функцией при использовании в логистической регрессии, сначала мы посмотрим, каковы условия для того, чтобы функция была выпуклой.

Действительная функция, определенная на n -мерном интервале, называется выпуклой, если отрезок прямой между любыми двумя точками на графике функции Лежит над графиком или на нем.

Если f дважды дифференцируемо, а домен является действительной линией, то мы можем охарактеризовать его следующим образом:

f является выпуклым тогда и только тогда, когда f ”(x) ≥ 0 для всех x. Следовательно, если мы можем показать, что двойная производная нашей функции потерь ≥ 0, то мы можем утверждать, что она выпуклая. Подробнее читайте в этом видео.

Теперь мы математически покажем, что функция потерь MSE для логистической регрессии невыпуклая.

Для простоты предположим, что у нас есть одна функция «x» и «двоичные метки» для данного набора данных. На изображении ниже f (x) = MSE, а ŷ - это прогнозируемое значение, полученное после применения сигмоидной функции.

Из приведенного выше уравнения ŷ * (1 - ŷ) находится между [0, 1]. Следовательно, мы должны проверить, является ли H (ŷ) положительным для всех значений «x» выпуклой функцией.

Мы знаем, что y может принимать два значения: 0 или 1. Давайте проверим условие выпуклости для обоих случаев.

Таким образом, в приведенном выше случае, когда y = 0, из уравнения ясно, что, когда ŷ лежит в диапазоне [0, 2/3], функция H (ŷ) ≥ 0 и, когда ŷ находится между [2/3, 1], функция H (ŷ) ≤ 0. Это показывает, что функция не выпуклый.

Теперь, когда y = 1, из уравнения ясно, что, когда ŷ лежит в диапазоне [0, 1/3], функция H (ŷ) 0 и, когда ŷ находится между [1/3, 1], функция H (ŷ) ≥ 0. Это также показывает, что функция не является выпуклой.

Следовательно, на основе определения выпуклости мы математически показали, что функция потерь MSE для логистической регрессии невыпуклая и не рекомендуется.

Теперь возникает вопрос о выпуклости функции «логарифмических потерь» !! Мы математически покажем, что функция потерь журнала является выпуклой для логистической регрессии.

Тета: коэффициент независимой переменной «x».

Как видно из окончательного выражения (двойная производная логарифмической функции потерь), квадраты членов всегда ≥0, а также, как правило, мы знаем, что диапазон e ^ x равен (0, бесконечность ). Следовательно, последний член всегда ≥0, что означает, что функция логарифмических потерь в таких сценариях является выпуклой !!

Заключительные мысли:

Мы надеемся, что этот пост помог вам понять недостатки использования MSE в качестве функции потерь в логистической регрессии. Если у вас есть какие-либо мысли, комментарии или вопросы, оставьте прокомментируйте ниже или свяжитесь с нами в LinkedIn и не забудьте нажать 👏, если вам нравится публикация.





Использованная литература: