Вы тоже можете понять L2

Один из наиболее распространенных методов предотвращения переобучения называется Регуляризация L2 (поскольку он использует норму L2). Он также известен как регрессия гребня (из оригинальной статьи 1970 года) или снижение веса (в рамках глубокого обучения, потому что это, по сути, то, что он делает).

Предварительная информация: Регуляризация

  1. Почему? Большой вес в нейронной сети часто является признаком слишком сложной сети, которая не соответствует обучающим данным. Следовательно, один из способов не допустить того, чтобы модель стала слишком сложной, - это не дать весам стать слишком большими.
  2. Что? Регуляризация L2 - это метод уменьшения сложности модели за счет снижения весов модели пропорционально квадрату каждого веса (поэтому особенно самые высокие), но не делает их 0.
  3. Как? Регуляризация L2 добавляет возведенную в квадрат величину веса в качестве штрафного члена к функции потерь (умноженного на гиперпараметр лямбда). Из-за производной это означает, что во время градиентного спуска более высокие веса штрафуются больше, тогда как более низкие веса не изменяются так сильно (что предотвращает их переход к 0).