Знакомство с этой известной концепцией и ее влиянием на модели машинного обучения

Компромисс между смещением и дисперсией является фундаментальной и широко обсуждаемой концепцией в области науки о данных. Понимание компромисса смещения и дисперсии необходимо для разработки точных и надежных моделей машинного обучения, поскольку это может помочь нам оптимизировать производительность модели и избежать распространенных ошибок, таких как недообучение и переоснащение.

Прежде чем дать ему определение, необходимо отдельно определить, что такое смещение и дисперсия.

Предвзятость и дисперсия

Предвзятость

Смещение относится к ошибке, возникающей при аппроксимации реальной проблемы упрощенной моделью. Модель с высоким смещением не способна отразить истинную сложность данных и имеет тенденцию к недостаточному соответствию, что приводит к низкой производительности как для обучающих, так и для тестовых данных. Смещение представлено разницей между ожидаемым или истинным значением целевой переменной и предсказанным значением модели.

Дисперсия

Дисперсия относится к ошибке, вызванной чувствительностью модели к небольшим колебаниям обучающих данных. Модель с высокой дисперсией, как правило, переопределяет обучающие данные, что приводит к снижению производительности на новых, невидимых данных. Дисперсия представлена ​​​​степенью изменчивости или разброса в прогнозах модели для разных обучающих наборов.

Понимание компромисса смещения и дисперсии необходимо для разработки точных и надежных моделей машинного обучения. Это может помочь оптимизировать производительность модели и избежать распространенных ошибок, таких как недообучение и переоснащение. Один из лучших способов визуализировать концепции смещения и дисперсии — использовать мишень для дротиков, подобную той, что показана ниже.

На рисунке показано, как связаны дисперсия и смещение:

  • Модель с высоким смещением и высокой дисперсией — это модель, которая допускает много ошибок и очень непоследовательна.
  • Модель с высокой дисперсией и низким смещением, как правило, более точна, но результаты сильно различаются.
  • Модель с высоким смещением и низкой дисперсией — это модель, которая делает много неверных прогнозов, но очень последовательна в своих результатах.
  • Наконец, модель с низким смещением и дисперсией дает хорошие прогнозы и согласуется с ее результатами.

Глядя на рисунок, интуитивно понятно, что все модели должны иметь низкое смещение и низкую дисперсию, поскольку эта комбинация дает наилучшие результаты. Однако именно здесь возникает компромисс между смещением и дисперсией.

Компромисс

Компромисс между смещением и дисперсией возникает из-за того, что увеличение сложности модели может уменьшить смещение, но увеличить дисперсию. С другой стороны, уменьшение сложности может уменьшить дисперсию, но увеличить смещение. Цель состоит в том, чтобы найти оптимальный баланс между смещением и дисперсией, что приводит к наилучшей производительности обобщения новых, невидимых данных.

Это напрямую связано со сложностью используемой модели, как показано на рисунке ниже.

На графике показано, как сложность модели связана со значениями смещения и дисперсии. Модели с низкой сложностью могут быть слишком простыми для понимания шаблонов данных, используемых при обучении, явление, называемое недообучение.Следовательно он не сможет делать хорошие прогнозы на основе тестовых данных, что приведет к большому смещению.

С другой стороны, модель со слишком большой степенью свободы может привести к так называемому переоснащению,которое это когда модель имеет отличную производительность на обучающих данных, но имеет значительное снижение производительности при оценке тестовых данных. Это происходит, когда модель слишком привыкает к обучающим данным, теряя при этом способность к обобщению, и когда ей нужно интерпретировать невиданную ранее выборку данных, она не может получить хороший результат.

По мере увеличения сложности модели смещение уменьшается (модель лучше соответствует обучающим данным), но увеличивается дисперсия (модель становится более чувствительной к обучающим данным). Оптимальный компромисс происходит в точке, где ошибка минимизируется, что в данном случае находится на среднем уровне сложности.

Чтобы помочь понять, давайте рассмотрим практический пример, иллюстрирующий концепцию компромисса смещения и дисперсии.

Пример

Чтобы проиллюстрировать влияние компромисса смещения и дисперсии в моделях машинного обучения, давайте посмотрим, как модели с разным уровнем сложности будут работать при обучении и тестировании на одних и тех же наборах данных.

В этом примере будет создан случайный набор данных с квадратичной зависимостью между входными данными X и выходными данными y. Затем мы разделяем данные на обучающие и тестовые наборы и подбираем три модели полиномиальной регрессии разной степени (1, 2 и 20). Мы строим полученные модели вместе с обучающими и тестовыми данными и вычисляем среднеквадратичную ошибку как для обучающего, так и для тестового набора.

Полученный график показывает компромисс смещения и дисперсии для различных моделей полиномиальной регрессии:

Модель со степенью = 1 слишком упрощена и имеет большое смещение и низкую дисперсию, что приводит к недообучению и большим ошибкам как для обучающих, так и для тестовых данных. Модель со степенью = 20 слишком сложна и имеет малое смещение и высокую дисперсию, что приводит к переоснащению и низкой ошибке в обучающих данных, но к высокой ошибке в тестовых данных. Модель со степенью = 2 имеет хороший баланс между смещением и дисперсией и приводит к наименьшей ошибке теста.

Этот пример демонстрирует важность поиска правильного уровня сложности модели машинного обучения, чтобы сбалансировать предвзятость и дисперсию и добиться хорошей производительности обобщения новых, невидимых данных.

Надеюсь, эта статья помогла вам понять компромисс между смещением и дисперсией и то, как его учитывать при разработке моделей машинного обучения.

Любые комментарии и предложения более чем приветствуются.

Не стесняйтесь связаться со мной на моем LinkedIn и проверить мой GitHub.

Линкедин

Гитхаб