Зачем нужна регуляризация функции потерь и как она помогает

Всякий раз, когда мы запускаем простую модель машинного обучения, такую как линейная классификация, мы можем определить меру несчастья с помощью функций потерь. Мы видели, как работает функция потерь в разделе Функции потерь и что она делает. Однако в функциях потерь, таких как мультиклассовый SVM, есть ошибка. Всякий раз, когда мы вычисляем показатель потерь с помощью функции потерь и находим W, для которого L является самым низким (допустим, 0), мы никогда не можем быть уверены, что W уникален. Может быть меньшее W, которое дает тот же результат, что означает, что выбранный нами вес не самый эффективный, и мы можем быть уверены только с нашей функцией потерь.

Давайте посмотрим на пример, чтобы лучше понять проблему:

Ранее мы видели этот расчет с Multiclass SVM. Давайте подумаем о среднем примере с изображением автомобиля. Здесь мы вычислили 0, вычислив таким образом.

= max(0, 1.3-4.9+1) + max(0,2.0-4.9+1)
= max(0,-2.6) + max(0,-1.9)
= 0

Однако будет ли только этот W с такой комбинацией (1.3,4.9,2.0) рассчитываться как 0 для изображения автомобиля?

Как насчет того, чтобы получить букву W в два раза больше? В чем тогда будет потеря? Давайте посчитаем:

= max(0, 2.6-9.8+1) + max(0,4.0-9.8+1)
= max(0,-6.2) + max(0,-4.8)
= 0

Ответ - нет. Мы не можем знать, подсчитав потери, что наши веса являются наиболее эффективными.

Здесь в игру вступает регуляризация. С помощью регуляризации мы можем заставить наш расчет убытков всегда понимать, как у нас дела с точки зрения W.

Регуляризация

Регуляризация действует как штраф к нашей функции потерь с точки зрения W. Итак, с точки зрения уравнения, наши потери становятся:

Как видно, регуляризация добавляет штраф ко времени λ, которое является гиперпараметром. Если регуляризация L2, то расширенная версия уравнения может быть записана как:

Итак, как это помогает?

Таким образом, даже если наша функция Loss дает низкий результат, теперь у нас есть добавленный штраф, зависящий от весов. Таким образом, эти две функции будут бороться до конца, чтобы обеспечить незначительные потери при эффективном W.

Это работает блестяще, даже если у нас есть W, который пытается оказать более значительное влияние на 1 функцию, а не на остальные другие. Функция регуляризации позволяет избежать этого.

Например, если у нас есть два веса, W1 и W2, для ввода x:

W1 = [1,0,0,0]
W2 = [0.25,0.25,0.25,0.25]

Тогда хотя W1x = W2x= 1. Из-за регуляризации наша функция потерь будет предпочитать W2.

Все эти пункты в основном взяты из лекций по CS231n. Если вам нужна дополнительная информация, пожалуйста, проверьте

Курс:

Конспект лекций:

Сверточные нейронные сети CS231n для визуального распознавания
Содержание: В последнем разделе мы представили проблему классификации изображений, которая является задачей…cs231n .github.io

Зачем нужна регуляризация функции потерь и как она помогает

Регуляризация

Итак, как это помогает?

Вопросы по теме