В этой статье будет рассмотрена широко используемая техника, позволяющая избежать переобучения.

Необходимость регуляризации?

Глубокие нейронные сети имеют тенденцию переобучаться из-за своей сложности, большого количества скрытых слоев, где ошибка обучения очень мала, но ошибка тестирования может возрасти.

Вы можете сослаться на эту концепцию в этой статье:



Обработка смещения и отклонения?
Определить численно недостаточное и избыточное соответствие?



Регуляризация помогает модели лучше обобщать, чтобы она лучше работала с невидимыми данными. Регуляризация вносит неопределенность или случайность в алгоритм обучения, а также упрощает нейронную сеть. Некоторые методы регуляризации наказывают весовые метрики за слишком большие размеры, некоторые методы уменьшают количество скрытых единиц в нейронной сети.

Различные типы методов регуляризации.

Существуют различные методы регуляризации, которые по-разному влияют на модель. Вот некоторые из них:

L1 и L2 регуляризация

Модель регрессии, в которой используется метод регуляризации L1, называется регрессия лассо, а модель, использующая L2, называется регрессия гребня . Регуляризация L1 и L2 имеет тенденцию к увеличению стоимости, если весовые матрицы большие. Мы добавляем часть регуляризации L1 или L2 к функции фактических затрат. Это наказывает за большие весовые матрицы.

Стоимость = фактическая стоимость + Срок регуляризации (L1 или L2).

L1 или лассо

В этом случае термин регуляризации добавляет абсолютные значения показателей к фактическим затратам (например, для двоичной кросс-энтропии).

Стоимость = фактическая стоимость + λ / 2 м ∗ Σ ∥ Вт

Опять же, если лямбда равно нулю, мы вернем фактическую стоимость, тогда как очень большое значение сделает коэффициенты равными нулю, следовательно, оно не будет соответствовать. Полезно сжать модель. Это помогает свести к нулю менее важные функции. Это также помогает в процессе выбора функции.

L2 или жесткий

Этот член регуляризации добавляет квадраты значений к фактическим штрафам за большие затраты.

Стоимость = фактическая Стоимость + λ / 2 м * Σ ∥ Вт∥ ²

Здесь, если лямбда равно нулю, можно представить, что мы возвращаем фактическую стоимость. Однако, если лямбда очень велико, это приведет к слишком большому увеличению веса и приведет к недостаточной подгонке. При этом важно, как выбирается лямбда. Этот метод очень хорошо работает, чтобы избежать проблем с чрезмерной подгонкой.

Выбывать

Это наиболее часто используемый метод глубокого обучения, и он дает хорошие результаты. Это уменьшает количество скрытых слоев в модели и, следовательно, снижает сложность модели.

Общая идея заключается в том, что мы устанавливаем некоторую вероятность сохранения узла и удаления узла, скажем, 0,5 сохранения и 0,5 удаления. Это случайным образом исключит узлы из процесса обучения.

На каждой итерации активируются несколько различных наборов узлов в зависимости от вероятности сохранения узлов. Этот метод привносит в модель случайность, что, в свою очередь, снижает вероятность переобучения.

Выпадение следует использовать там, где, по вашему мнению, могут быть некоторые слои, которые более склонны к переобучению.

Ранняя остановка

Ранняя остановка - это изящная концепция отслеживания ошибки валидации для получения наилучшего соответствия данным. В режиме «Ранняя остановка» мы разделяем обучающие данные на наборы данных для обучения и проверки, в каждую эпоху мы перекрестно проверяем модель. Всякий раз, когда модель приближается к высокой дисперсии, дальнейшее взаимодействие прекращается. Эта остановка зависит от переменной терпения (предположим, что терпение = 10), то есть если вы хотите остановиться после еще 10 аналогичных итераций с высокой дисперсией. Это терпение - гиперпараметр, который нужно выбирать осторожно.

Может быть случай, когда модель начнет работать лучше через пару эпох, но мы установили терпение на 10, поэтому она будет остановлена, поэтому мы должны тщательно выбирать этот параметр.

В области компьютерного зрения, междисциплинарной научной области, есть еще один метод достижения случайности - увеличение данных. В этом методе мы производим несколько схожие изображения помеченных данных с некоторыми искажениями, такими как смещение, переворачивание, масштабирование, поворот, яркость и т. Д.