Советы, как избежать ловушки переобучения в линейной регрессии

  1. Разделите данные на обучающий набор и тестовый набор, тестовый набор не будет использоваться для обучения модели.
  2. Остаточная сумма квадратов используется для определения наилучшей модели, цель состоит в том, чтобы минимизировать остаточную сумму квадратов, это значение называется ошибкой обучения, именно так рассчитываются параметры модели.
  3. Но это разделение набора данных на обучающие и тестовые данные будет хорошо работать только при наличии действительно больших наборов данных.
  4. Точность прогнозирования позже проверяется на наборе тестовых данных, этот набор данных не использовался для обучения модели, снова вычисляется остаточная сумма квадратов на тестовых данных, и теперь это называется ошибкой теста.
  5. При этом параметры модели постоянно обновляются с использованием алгоритмов оптимизации для уменьшения ошибки прогнозирования.
  6. Интересно узнать, как ошибка теста и ошибка обучения зависят от сложности модели (сложность модели увеличивается с увеличением полиномиальной степени модели, то есть сложность пропорциональна порядку модели)
  7. Видно, что ошибка обучения уменьшается с порядком модели, а ошибка теста падает с увеличением сложности модели, но после определенного момента она снова начинает увеличиваться. Это можно наблюдать на изображении ниже

8. Выбор модели должен основываться на наблюдении за ошибкой обучения и ошибкой теста. Также сложно выбрать правильные функции, чтобы построить модель для ваших прогнозов.