Компромисс смещения и дисперсии — это распространенная проблема машинного обучения, о которой говорили. Что на самом деле такое предвзятость и дисперсия? Что вызывает это? И как мы можем справиться с обменом?
Всякий раз, когда мы говорим о прогнозировании машинного обучения, важно понимать два разных типа ошибок прогнозирования (смещение и дисперсия). Существует компромисс между способностью модели минимизировать систематическую ошибку и дисперсию.
Что такое предвзятость?
Смещение – это упрощающие допущения, сделанные моделью для упрощения аппроксимации целевой функции.
- Низкая погрешность. Предлагает меньше предположений о форме целевой функции.
- Высокая погрешность: предлагает больше предположений о форме целевой функции.
Что такое дисперсия?
Дисперсия – это величина, на которую изменится оценка целевой функции при различных данных обучения.
- Низкая дисперсия: предлагает небольшие изменения в оценке целевой функции с изменениями в наборе обучающих данных.
- Высокая дисперсия: предлагает большие изменения в оценке целевой функции с изменениями в наборе обучающих данных.
Что такое компромисс между отклонением и отклонением?
Цель любой модели — иметь низкую дисперсию и низкое смещение. Как вы можете видеть на диаграмме выше, высокое смещение приводит к недостаточно подходящим моделям, а высокая дисперсия приводит к переподходящим моделям. В идеальных сценариях оба должны быть низкими, но достижение одного достигается за счет увеличения другого. Это известно как компромисс между смещением и дисперсией.
К сожалению, не существует количественного способа найти эту сбалансированную точку ошибки, при которой обе ошибки минимальны. Вместо этого вам нужно будет использовать меры точности и корректировать сложность вашей модели, пока вы не найдете итерацию, которая минимизирует общую ошибку.
Самое главное, помните, что у вас есть много типов моделей на выбор, и нет причин предпочесть один другому до того, как вы узнаете, как выглядят ваши данные. Ключевым моментом является выбор модели, которая делает предположения, соответствующие вашим данным! Удачного моделирования!