Регуляризация в машинном обучении

Важный метод, чтобы избежать переобучения

Введение

Разработка модели машинного обучения — это не волшебство, когда вы щелкаете пальцами и «БУМ!», модель появляется автоматически. На самом деле, люди часто думают, что искусственный интеллект (ИИ) так же умен, как человек. Тем не менее, я хотел бы вставить это восприятие, используя логику из речи, которую я прочитал в сообщении, но я не помню, кто разместил его, говоря, среди прочего, что «компьютер является более быстрым тупее нас». А что такое компьютер, если не математическая машина? Искусственный интеллект строится на компьютере и на нем, а в результате получается продукт, основанный на математике. В случае ИИ мы можем назвать это программным обеспечением. Что такое программное обеспечение, если не математический продукт? Поэтому ИИ основан на математике и статистике. Что дополняет математические возможности и статистичность ИИ, так это скорость компьютера. Таким образом, ИИ тупее нас. Машины нуждаются в нашем разуме и программировании. Они не могут достичь нашего уровня интеллекта, и их уровень зависит от наших рук. Точно так же, как мы являемся продуктами принципа перед нами, и мы ограничены аспектами всего этого принципа, таким же образом мы являемся принципами ИИ, и он ограничен нашими пределами. Это никогда не изменится. Все, что составляет нас, лучше сказать, наше человечество, основано на принципе, который нас породил, то есть биохимия, психология и эволюция, таким образом, все, что составляет ИИ, основано на нас, то есть математика, статистика и версия . Что биохимия, психология и эволюция значат для нас, математика, статистика и версии значат для ИИ. Это потому, что мы не можем превратить машины в сознательные существа.

Как уже было сказано выше, при разработке модели машинного обучения или модели ИИ мы должны беспокоиться о плохих моделях, то есть о недостаточно или переоснащенных моделях. Таким образом, мы должны обрабатывать, используя наш интеллект и руки, данные и обученную модель, чтобы это хорошо работало на этапе прогнозирования. Есть несколько способов избежать недообучения и переобучения, и мы должны ими овладеть. В этой статье я расскажу о методе предотвращения переобучения, который называется регуляризация.

1 Что такое регуляризация

Во-первых, как упоминалось выше, регуляризация — это способ избежать переобучения. Если копнуть глубже, то это штраф, который применяется к сложности модели, или, скорее, он штрафует функцию математической регрессии регрессионной модели.

На этой первой иллюстрации ниже представлена простая функция линейной регрессии:

На следующем рисунке ниже представлена функция простой линейной регрессии со штрафом:

Эта функция подробно объясняется далее в статье.

2 Немного об остатках регрессии

При работе над проблемами регрессии мы работаем с обычным методом наименьших квадратов (OLS) для оценки параметров регрессии, то есть вектора β. Целью метода является минимизация стоимости остатков. Остатки связаны с расстоянием между прогнозируемым значением и реальным значением. Это расстояние является ошибкой. Формула для расчета ошибки:

Из этого расчета мы можем сделать вывод:

Поэтому нас интересует минимизация взаимосвязи между Yi и функцией β. На рисунке ниже показана оптимальная точка, которая определяет оптимальные значения для коэффициентов β:

Так что:

RSS = остаточная сумма квадратов;
β0 = угловой коэффициент;
β1 = линейный коэффициент.

Из этой минимизации мы получаем минимальную ошибку, которая может быть выражена в следующих формулах:

Из этих формул мы выбираем модель с наименьшей ошибкой, поскольку наименьшая ошибка означает приближение прогноза к фактическим данным.

3 Различные методы регуляризации

Существует три метода штрафа за регуляризацию: Регрессия гребня, Регрессия лассо и Elastic-Net — последний представляет собой комбинацию первого и второго. вторая техника. Каждый из них описан в этом тексте.

Каждый метод приводит к разным эффектам друг от друга на функцию регрессии. Короче говоря, штраф снижает значения коэффициентов и/или обнуляет их, делая их одноразовыми. Уменьшение значений коэффициентов меняет прогноз.

3.1 Глубокое понимание важности регуляризации

Чтобы полностью понять важность регуляризации, обратите внимание на следующую схему:

На приведенной выше диаграмме показано, что лучшая модель — это модель с двумя переменными. Теперь обратите внимание на следующий график:

Эта диаграмма показывает, что наилучшей моделью является та, в которой есть не только одна переменная или две переменные, но и та, в которой количество переменных находится между единицей и двумя.

Однако как достичь этого значения между единицей и двумя? Это возможно, если добавить смещение в оценщик.Почему? Потому что при определенных условиях оценки МНК не имеют смещения и имеют минимальную дисперсию. Допуская смещение в β, так что дисперсия существенно уменьшается, это, следовательно, приводит к более низкой MSE (среднеквадратичной ошибке). Таким образом, у нас есть модель, которая раньше имела дискретное число по оси X, а затем начала иметь непрерывное число.

Обратите внимание на иллюстрацию ниже. Это функция затрат. Что происходит, так это то, что формула расчета ошибки имеет новый компонент, который является частью затрат.

Соблюдайте ту же формулу в процессе более подробно:

Кстати, этой агрегатной функцией является регрессия Лассо (L2), один из методов штрафа, взятых для примера.

3.1.1 Штраф за усадку

Штраф за усадку является ограничением для β, поэтому, если β может принимать значение 7, однако значение 3 определено как допустимый предел β, тогда β может принимать только значения, меньшие или равные 3. Штраф за усадку математически выражается g (β). На следующем рисунке показана, например, идея возможного поведения оштрафованного β.

Неоновая синяя область — это пространство, в котором β может принимать некоторое значение, получая ограничения от регрессии лассо.

Возвращаясь к смещению, смещение включается, когда мы заставляем значение β быть меньше, чем предполагалось.

3.1.2 Понимание формулы штрафа

Обратите внимание на эту схему ниже:

g(β) может принимать три следующие формулы:

Регрессия хребта/Штраф:

Регрессия лассо/штраф:

Регрессия эластичной сети/штраф

Графически ограничения поведения каждого метода регуляризации выглядят следующим образом:

Ridge более круглый, чем Lasso, и Elastic Net может принимать промежуточную форму.

3.1.3 Штраф за гребень

Если я работаю с гребенчатой регрессией, я должен учитывать, что β будет уменьшаться, но никогда не будет равен нулю. Следовательно, ридж-регрессия полезна, когда мы знаем, что важен каждый коэффициент регрессии, иначе мы можем столкнуться с двумя проблемами:

1 — Модель не так хороша, как хотелось бы;

2 — Большое количество переменных, большая часть из которых бесполезны, что может навредить модели.

3.1.4 Штраф за лассо

В отличие от Ridge Penalty, Lasso Penalty не только снижает значения β, но также заставляет неважные β приниматься за значения, равные нулю. Поэтому этот метод удобен для выбора очень важных переменных.

3.1.5 Эластичный чистый штраф

Эта техника сочетает в себе две другие техники. Эта комбинация взвешивает две упомянутые ранее техники. Этот метод подходит для уменьшения значений β даже больше, чем Ridge.

Существует еще штраф в виде подковы, однако я не буду рассматривать его в этой статье, оставив его для следующей статьи.

Заключение

Регуляризация — это мощный метод разработки хорошей регрессионной модели машинного обучения. Его не всегда нужно будет использовать, однако в других контекстах да. Экспериментирование с различными методами и моделями и оценка воздействия на модели и их производительность является научной и рекомендуемой задачей.

В моем портфолио я обсуждаю другие методы борьбы с переоснащением и недообучением. Вы можете прочитать другие статьи, где я освещаю их, и внести свой вклад в мои статьи, оставив комментарии в комментариях.