Введение:

Переоснащение — серьезная проблема в машинном обучении. Это происходит, когда модель фиксирует шум (случайность) вместо сигнала (реальный эффект). В результате модель хорошо работает на тренировочном наборе, но плохо работает на тестовом наборе. Весь набор данных имеет два шаблона:

Случайный эффект. Случайный эффект — это случайность (шум) в наших данных. Во всех наборах данных он разный. Модель будет чрезмерно оптимистичной в обучающем наборе, потому что она будет специализироваться на случайности данных. Например, если сотрудник получал одно за другим ежегодные продвижения по службе, наша модель рассматривала бы эту случайность как реальный эффект и учитывала бы это при прогнозировании заработной платы. Большинство сотрудников получают только ежегодное повышение по умолчанию и не получают продвижения по службе.

Реальный эффект. Реальный эффект — это базовая закономерность (сигнал) в интересующих нас данных. Он одинаков для всех наборов данных. Все сотрудники, получающие 5% прибавки каждый год в компании, независимо от их продвижения по службе, являются примером реального эффекта, который наша модель должна учитывать при прогнозировании заработной платы.

Источник: https://docs.aws.amazon.com/machine-learning/latest/dg/model-fit-underfitting-vs-overfitting.html

Источник: https://www.geeksforgeeks.org/underfitting-and-overfitting-in-machine-learning/

Возможные причины переобучения:

  • Наша модель слишком сложна и включает мультиколлинеарные признаки, которые увеличивают дисперсию наших данных.
  • Количество функций в наших данных больше или равно количеству точек данных.
  • У нас очень мало точек данных.
  • Мы не настраивали гиперпараметры. В результате наши модели стали непараметрическими и очень гибкими, чтобы соответствовать всем данным.

Как бороться с переоснащением?

  • Перекрестная проверка. Перекрестная проверка — это метод проверки модели, при котором мы оцениваем качество нашей модели в невидимом наборе данных. При перекрестной проверке обучение и проверка выполняются вместе. K-кратная перекрестная проверка и перекрестная проверка с исключением одного (LOOCV) являются двумя наиболее популярными методами перекрестной проверки.
  • Уменьшение размерности. Если наши данные имеют огромное количество атрибутов и мультиколлинеарность между атрибутами, мы должны использовать модели уменьшения размерности, такие как анализ основных компонентов (PCA), и выбор функций, такие как LASSO и регрессия эластичной сети. Это помогает сделать нашу модель проще и лучше.
  • Регуляризация. Метод регуляризации добавляет штрафной срок для сложных моделей, чтобы избежать риска переобучения. Это форма регрессии, которая уменьшает коэффициенты наших признаков до нуля. Однако применение регуляризации к слишком простой модели приводит к недообучению, ситуации, когда машина игнорирует реальные эффекты, т. е. сигнал.

Любые отзывы и предложения приветствуются.