Модель является наложением, когда она изучила определенные уникальные особенности обучающих данных, но недостаточно общих, чтобы хорошо работать с невидимыми данными. Таким образом, он не готов к реальному использованию.

Причины:

  • Если модель имеет высокую дисперсию и низкую погрешность, точность ее обучения увеличивается, но точность проверки снижается с каждой эпохой. .
  • Если обучающий набор содержит зашумленные данные, это может снизить точность проверки и увеличить дисперсию.
  • Если модель слишком сложна, систематическая ошибка будет низкой, а дисперсия высокой.
  • Если обучающие данные недостаточно велики или разнообразны, модель будет исследовать только несколько сценариев или возможностей. Шаблоны в невидимых данных будут новыми для него.

Обнаружение переобучения:

Мы начинаем тестировать наши данные, как только можем, чтобы знать, как они работают на невидимых изображениях. Мы принимаем меры в соответствии со спросом и необходимостью.

Предотвращение переобучения

(1) Больше данных для обучения. Чем больше данных, тем больше у модели шансов изучить закономерности, общие для имеющихся данных.

(2) Расширение данных: мы применяем преобразования к существующему набору данных, чтобы искусственно увеличить размер набора данных. Кроме того, модель может видеть изображения с большего количества точек зрения из-за преобразований.

(3) Стандартизация. Без нормализованных входных данных веса имеют тенденцию сильно различаться, что приводит к переоснащению и высокой дисперсии. Модель становится слишком сосредоточенной на нескольких функциях.

(4) Выбор функций.Слишком много функций сбивает модель с толку. В конечном итоге он изучает даже нерелевантные из них — учитывая нехватку обучающих данных — и не может хорошо работать с невидимыми изображениями.

(5) Перекрестная проверка. Перекрестная проверка гарантирует, что мы не монолитны в отношении данных обучения и проверки. Это устраняет любую вероятность зависимости модели от обучающих данных.

(6) Ранняя остановка: мы останавливаем обучение, когда потери при проверке начинают расти. Идея состоит в том, чтобы зафиксировать тот набор весов, который наиболее обобщает. Мы мешаем модели учиться больше, когда на нее начинает влиять шум в обучающей выборке.

(7) Объединение. Мы объединяем несколько стратегически сгенерированных моделей, таких как классификаторы или эксперты, в этом методе для повышения эффективности прогнозирования. Это уменьшает дисперсию, сводит к минимуму погрешность метода моделирования и снижает вероятность переобучения.

(8) Регуляризация. Регуляризация снижает сложность модели за счет значительного уменьшения дисперсии и лишь незначительного увеличения систематической ошибки. Наиболее широко используемыми методами регуляризации являются L1 (лассо), L2 (гребень), эластичная сеть, отсев, пакетная нормализация и т. д.