Авторы: Раджеш Шридхар Бхат *, Сурадип Чакраборти * (* означает равный вклад).
В этом сообщении блога мы в основном сравниваем «потерю журнала» и «среднеквадратичную ошибку» для логистической регрессии и показываем, почему рекомендуется потеря журнала. для того же на основе эмпирического и математического анализа.
Уравнения для обеих функций потерь следующие:
Потеря журнала:
Среднеквадратичный убыток:
В двух приведенных выше уравнениях
y: фактическая метка
ŷ: прогнозируемое значение
n: количество классов
Допустим, у нас есть набор данных с 2 классами (n = 2), а метки представлены как «0» и «1».
Теперь мы вычисляем значение потерь при полном несоответствии между прогнозируемыми значениями и фактическими метками и выясняем, насколько потеря журнала лучше, чем MSE.
Например:
Скажем
- Фактическая метка для данного образца в наборе данных - «1».
- Прогноз по модели после применения сигмоидной функции = 0
Величина потерь при использовании MSE:
(1- 0)² = 1
Значение потери при использовании потери журнала:
Прежде чем вводить значения для уравнения потерь, мы можем посмотреть, как выглядит график log (x).
Как видно из приведенного выше графика, поскольку x стремится к 0, log (x) стремится к -infinity.
Следовательно, размер убытка будет:
- (1 * log (0) + 0 * log (1)) = стремится к бесконечности !!
Как видно выше, значение потерь с использованием MSE было намного меньше по сравнению со значением потерь, вычисленным с помощью функции потерь журнала. Следовательно, для нас совершенно очевидно, что MSE не наказывает за неправильную классификацию даже за идеальное несоответствие!
Однако, если существует полное совпадение между прогнозируемыми значениями и фактическими метками, оба значения потерь будут равны «0», как показано ниже.
Фактический ярлык: «1»
Прогноз: «1»
MSE: (1–1) ² = 0
Потеря журнала: - (1 * журнал (1) + 0 * журнал (0)) = 0
Здесь мы показали, что MSE - не лучший выбор для задач двоичной классификации. Но то же самое можно распространить и на задачи классификации нескольких классов, учитывая, что целевые значения кодируются без промедления.
MSE и проблема невыпуклости в логистической регрессии.
В сценариях классификации мы часто используем методы на основе градиента (Ньютон-Рафсон, градиентный спуск и т. Д.), Чтобы найти оптимальные значения для коэффициентов путем минимизации функции потерь. Следовательно, если функция потерь не является выпуклой, не гарантируется, что мы всегда достигнем глобальных минимумов, скорее мы можем застрять в локальных минимумах.
Прежде чем углубиться в то, почему MSE не является выпуклой функцией при использовании в логистической регрессии, сначала мы посмотрим, каковы условия для того, чтобы функция была выпуклой.
Действительная функция, определенная на n -мерном интервале, называется выпуклой, если отрезок прямой между любыми двумя точками на графике функции Лежит над графиком или на нем.
Если f дважды дифференцируемо, а домен является действительной линией, то мы можем охарактеризовать его следующим образом:
f является выпуклым тогда и только тогда, когда f ”(x) ≥ 0 для всех x. Следовательно, если мы можем показать, что двойная производная нашей функции потерь ≥ 0, то мы можем утверждать, что она выпуклая. Подробнее читайте в этом видео.
Теперь мы математически покажем, что функция потерь MSE для логистической регрессии невыпуклая.
Для простоты предположим, что у нас есть одна функция «x» и «двоичные метки» для данного набора данных. На изображении ниже f (x) = MSE, а ŷ - это прогнозируемое значение, полученное после применения сигмоидной функции.
Из приведенного выше уравнения ŷ * (1 - ŷ) находится между [0, 1]. Следовательно, мы должны проверить, является ли H (ŷ) положительным для всех значений «x» выпуклой функцией.
Мы знаем, что y может принимать два значения: 0 или 1. Давайте проверим условие выпуклости для обоих случаев.
Таким образом, в приведенном выше случае, когда y = 0, из уравнения ясно, что, когда ŷ лежит в диапазоне [0, 2/3], функция H (ŷ) ≥ 0 и, когда ŷ находится между [2/3, 1], функция H (ŷ) ≤ 0. Это показывает, что функция не выпуклый.
Теперь, когда y = 1, из уравнения ясно, что, когда ŷ лежит в диапазоне [0, 1/3], функция H (ŷ) ≤ 0 и, когда ŷ находится между [1/3, 1], функция H (ŷ) ≥ 0. Это также показывает, что функция не является выпуклой.
Следовательно, на основе определения выпуклости мы математически показали, что функция потерь MSE для логистической регрессии невыпуклая и не рекомендуется.
Теперь возникает вопрос о выпуклости функции «логарифмических потерь» !! Мы математически покажем, что функция потерь журнала является выпуклой для логистической регрессии.
Тета: коэффициент независимой переменной «x».
Как видно из окончательного выражения (двойная производная логарифмической функции потерь), квадраты членов всегда ≥0, а также, как правило, мы знаем, что диапазон e ^ x равен (0, бесконечность ). Следовательно, последний член всегда ≥0, что означает, что функция логарифмических потерь в таких сценариях является выпуклой !!
Заключительные мысли:
Мы надеемся, что этот пост помог вам понять недостатки использования MSE в качестве функции потерь в логистической регрессии. Если у вас есть какие-либо мысли, комментарии или вопросы, оставьте прокомментируйте ниже или свяжитесь с нами в LinkedIn и не забудьте нажать 👏, если вам нравится публикация.
Использованная литература: