Советы, как избежать ловушки переобучения в линейной регрессии
- Разделите данные на обучающий набор и тестовый набор, тестовый набор не будет использоваться для обучения модели.
- Остаточная сумма квадратов используется для определения наилучшей модели, цель состоит в том, чтобы минимизировать остаточную сумму квадратов, это значение называется ошибкой обучения, именно так рассчитываются параметры модели.
- Но это разделение набора данных на обучающие и тестовые данные будет хорошо работать только при наличии действительно больших наборов данных.
- Точность прогнозирования позже проверяется на наборе тестовых данных, этот набор данных не использовался для обучения модели, снова вычисляется остаточная сумма квадратов на тестовых данных, и теперь это называется ошибкой теста.
- При этом параметры модели постоянно обновляются с использованием алгоритмов оптимизации для уменьшения ошибки прогнозирования.
- Интересно узнать, как ошибка теста и ошибка обучения зависят от сложности модели (сложность модели увеличивается с увеличением полиномиальной степени модели, то есть сложность пропорциональна порядку модели)
- Видно, что ошибка обучения уменьшается с порядком модели, а ошибка теста падает с увеличением сложности модели, но после определенного момента она снова начинает увеличиваться. Это можно наблюдать на изображении ниже
8. Выбор модели должен основываться на наблюдении за ошибкой обучения и ошибкой теста. Также сложно выбрать правильные функции, чтобы построить модель для ваших прогнозов.