Компромисс смещения и дисперсии — это распространенная проблема машинного обучения, о которой говорили. Что на самом деле такое предвзятость и дисперсия? Что вызывает это? И как мы можем справиться с обменом?

Всякий раз, когда мы говорим о прогнозировании машинного обучения, важно понимать два разных типа ошибок прогнозирования (смещение и дисперсия). Существует компромисс между способностью модели минимизировать систематическую ошибку и дисперсию.

Что такое предвзятость?

Смещение – это упрощающие допущения, сделанные моделью для упрощения аппроксимации целевой функции.

  • Низкая погрешность. Предлагает меньше предположений о форме целевой функции.
  • Высокая погрешность: предлагает больше предположений о форме целевой функции.

Что такое дисперсия?

Дисперсия – это величина, на которую изменится оценка целевой функции при различных данных обучения.

  • Низкая дисперсия: предлагает небольшие изменения в оценке целевой функции с изменениями в наборе обучающих данных.
  • Высокая дисперсия: предлагает большие изменения в оценке целевой функции с изменениями в наборе обучающих данных.

Что такое компромисс между отклонением и отклонением?

Цель любой модели — иметь низкую дисперсию и низкое смещение. Как вы можете видеть на диаграмме выше, высокое смещение приводит к недостаточно подходящим моделям, а высокая дисперсия приводит к переподходящим моделям. В идеальных сценариях оба должны быть низкими, но достижение одного достигается за счет увеличения другого. Это известно как компромисс между смещением и дисперсией.

К сожалению, не существует количественного способа найти эту сбалансированную точку ошибки, при которой обе ошибки минимальны. Вместо этого вам нужно будет использовать меры точности и корректировать сложность вашей модели, пока вы не найдете итерацию, которая минимизирует общую ошибку.

Самое главное, помните, что у вас есть много типов моделей на выбор, и нет причин предпочесть один другому до того, как вы узнаете, как выглядят ваши данные. Ключевым моментом является выбор модели, которая делает предположения, соответствующие вашим данным! Удачного моделирования!