Ключевая цель модели машинного обучения и глубокого обучения — обучать таким образом, чтобы она отражала прогнозы как можно ближе к истине. Методы оптимизации помогают нам сблизить эти два значения ( Y и Yhat ). Также нередок сценарий, когда эта цель достигается с большим успехом на этапе обучения, но резко падает на этапе тестирования. Формально, в случае, когда Yhat (прогнозируемое значение) и Y (основная правда) не близки и с трудом получают хорошие результаты на самом этапе обучения, мы говорим, что модель имеет проблему «смещения», когда модель не соответствует. Но в случае, когда на этапе обучения производительность хорошая, но резко падает на этапах тестирования и проверки, мы говорим, что у модели есть проблема с «дисперсией» или модель переобучена. В предыдущем сценарии Datascientist пытается исправить это, применяя различные методы оптимизации, такие как градиентный спуск, поддержка RMS, оптимизация Адама. Последний обрабатывается различными методами регуляризации.

Переоснащение данных может быть результатом недостаточности данных или также может быть связано с недостаточной выборкой данных. В таком сценарии модель пытается запомнить данные и пытается идеально подогнать их к этому набору данных. Для любых новых данных эта память не работает, и, следовательно, прогнозы отклоняются от истины. В эпоху глубокого обучения это по-прежнему очень актуально и важно для упорядочения модели, чтобы не провалиться в приложении для распознавания лиц или распознавания речи. Или даже для устранения различных социальных предубеждений (не предвзятости) из моделей.

Существует несколько способов применения регуляризации к моделям глубокого обучения, и вот некоторые из них:

Регуляризация со штрафом

Регуляризация на основе штрафов является очень популярным способом регуляризации уже несколько лет, еще до появления моделей глубокого обучения. Дизайн этой регуляризации заключается в добавлении штрафного члена Lambda к функции стоимости. Значение Lambda может быть гиперпараметром для настройки. Когда лямбда равна нулю, это по существу означает нерегулярные модели.

i) Регуляризация L2

Регуляризация L2, применяемая к линейным моделям с функцией наименьших квадратов, также называется регрессией Ridge. Он добавляет квадраты значений коэффициентов к функции стоимости, которая штрафует всякий раз, когда веса пытаются отклониться от начала координат, и, таким образом, не придает большое значение переменным.

ii) Регуляризация L1

Хотя L1 используется не так часто, как регуляризация L2, он также является ключевым методом регуляризации, особенно используемым в качестве метода выбора признаков. В то время как член штрафа в L2 представляет собой квадрат значения коэффициента, L1 использует абсолютные значения. Этот метод при использовании в линейных моделях называется лассо. Это наказывает в том смысле, что создает разреженную модель и, следовательно, может использоваться в качестве метода выбора признаков. Хотя некоторые утверждают, что это может сделать модели глубокого обучения быстрее из-за меньшего количества переменных, обычно это не тот вариант использования (Цитата: AndrewNg в Deeplearning.ai в Coursera)

Регуляризация с шумом

i) Шум во входных данных (увеличение данных)

Поскольку мы знаем, что проблема переобучения чаще связана с недостатком данных, добавление дополнительных данных может помочь модели лучше обобщать. Особенно это касается моделей глубокого обучения, поскольку производительность линейна по отношению к объему данных, используемых при обучении. Однако в практических приложениях иногда получение большего количества данных очень дорого или просто невозможно. Например, рассмотрим систему распознавания лиц для задачи. Данные, доступные для этой конкретной задачи, могут быть только теми, которые действительно доступны и ограничены. Что можно было бы сделать в таких сценариях? Мы могли бы попробовать несколько методов, таких как обрезка, растяжение, масштабирование, изменение углов и т. д., и, таким образом, создать несколько примеров изображений из одного примера. Например, приведенное ниже изображение кошки создано из 1 изображения кошки. Но при этом нужно проявлять максимальную осторожность. Мы должны воздерживаться от преобразования данных таким образом, чтобы это могло полностью изменить интерпретацию. Например, преобразование изображения 6 в 9 путем изменения поворота может изменить всю интерпретацию.

Дополнительные методы см. на странице https://towardsdatascience.com/image-augmentation-for-deep-learning-histogram-equalization-a71387f609b2.

ii) Шум на выходе (сглаживание меток)

Этот метод можно использовать там, где достоверность наличия правильных значений меток меньше. Это явно создает шум на выходе, т.е. в целевой переменной. Этот метод также называется сглаживанием меток. Во многих случаях мы не уверены, верны ли истинные ярлыки. Если они неверны, основывать это предположение на максимизации логарифмической вероятности может быть опасно. Используя этот метод, можно понизить математическое ожидание с 1 до 0,8 или 0,9 в соответствии с нашим предположением о количестве случаев, когда метки неверны.

iii) Шум в скрытых узлах (отсев)
Отсев
— очень популярный и наиболее часто используемый подход к регуляризации в глубоком обучении. Этот подход направлен на удаление случайных единиц в слоях и устранение входящих и исходящих подключений к этой единице и от нее. Это создает элемент рандомизации. Это позволяет избежать необходимости сильно полагаться на одну или две переменные или придавать им больший вес. Модели знают, что некоторые из единиц могут быть недоступны во время следующих итераций, и, следовательно, лучше обобщают доступные данные, чем переоснащение. В модели глубокого обучения мы можем назначить вероятность, с которой единицы выбираются на каждом уровне. Поскольку существует несколько слоев, и каждый слой может иметь разный размер, мы можем назначить разные вероятности для каждого слоя.

Полуконтролируемые методы регуляризации

Это делается путем изучения представления данных и сопоставления функции h = f(x) . В этом методе для оценки y по x используются как размеченные, так и неразмеченные данные. Генеративная модель p(x) или p(x,y) может совместно использовать параметр с дискриминационной моделью p(y|x)

Многозадачное обучение

Как мы видели, дополнительные данные для обучения заставляют модель хорошо обобщать, наличие модели с общими задачами также создает давление на модель, чтобы она хорошо обобщала и давала более правильные результаты. На приведенной ниже диаграмме начальные уровни имеют общие параметры, а верхние уровни имеют больше параметров, специфичных для задач. Верхний уровень выигрывает только от примеров, характерных для конкретных задач, для достижения хорошего обобщения, а начальные уровни выигрывают от объединенных данных всех задач.

среди факторов, которые объясняют наблюдаемые различия в данных, связанных с различными задачами, некоторые являются общими для двух или более задач.

Ранняя остановка

Мы знаем, что ошибка обучения уменьшается с каждой итерацией при использовании в сочетании с методом оптимизации, таким как градиентный спуск. Мы также знаем, что ошибка проверки также уменьшается, но после определенного момента начинает увеличиваться. Это точка наилучшей производительности модели, и мы должны остановить ее раньше, чем проходить весь цикл, пока ошибка обучения не перестанет уменьшаться. Это работает путем сохранения в памяти самых последних наиболее эффективных параметров, а также наличия уровня «допуска» для завершения. т.е. если уровень допуска установлен равным 3, каждая итерация, если производительность параметров лучше, чем предыдущая, мы сохраняем их в памяти, но в случаях, когда производительность не лучше, мы не обновляем параметры, а также не прекращаем до тех пор, пока модель не улучшается в течение 3 итераций, и в этом случае модель завершается и возвращает самое последнее значение из памяти.

Модели ансамбля

Ансамблевые модели нацелены на построение нескольких моделей и усреднение выходных данных, чтобы избежать переобучения. Это достигается либо

  1. Построение нескольких моделей
  2. Построение одной и той же модели с разными переменными и образцами

Эта рандомизация помогает добиться лучшего обобщения по сравнению с использованием одной независимой модели.

Надеюсь, это даст вам очень хорошее представление о различных методах регуляризации, а также о том, что имеет отношение к конкретной проблеме.

Ссылки: курсы Deeplearning.ai на сайте Deeplearning.ai Deep Learning Яма Гудфеллоу, Йошуа Бенжио, Аарона Курвиле и Эндрю Нг.