Компромисс смещения и дисперсии — это концепция, которую легко пропустить, когда вы впервые начинаете заниматься машинным обучением, и тем не менее это один из самых фундаментальных принципов в этой области (и любимый вопрос на собеседовании).

Чтобы понять этот компромисс, нам сначала нужно понять ошибку модели.

Каждая модель машинного обучения имеет ошибку. (Если в вашей модели нет ошибок, это на самом деле очень плохой признак утечки данных.) Ошибка тестовых данных состоит из трех компонентов:

  1. Шум: случайный шум, присущий набору данных.
  2. Смещение: систематические ошибки из-за упрощающих допущений модели.
  3. Дисперсия: насколько прогнозы различаются между моделями, обученными на разных выборках обучающих данных.

Шум данных не зависит от модели и всегда будет вносить вклад в общую ошибку.

С другой стороны, предвзятость напрямую связана с используемым алгоритмом, хотя она есть во всех алгоритмах машинного обучения. Это легко концептуализировать для линейной регрессии, в которой существует фундаментальное предположение о линейной зависимости между признаками и целевой переменной. Однако многие функции не имеют линейной зависимости, и если не применить соответствующее преобразование (например, преобразование в логарифмическую шкалу), в результате линейная регрессия будет недооценивать эти функции. Недообучение — это неспособность изучить взаимосвязь между функциями и целью.

Другие более сложные алгоритмы также имеют упрощающие предположения. Для дерева решений это часто происходит из-за гиперпараметров, таких как установка минимального количества точек данных на лист или установка максимальной глубины. Эти гиперпараметры улучшают качество обобщения модели на новые данные, но делают это за счет упрощения модели. Случайный лес добавляет дополнительные упрощения деревьям внутри него посредством выборки. Каждое дерево обучается на начальной выборке данных, и каждая точка разделения может учитывать только выборку функций. Имея меньше данных для отдельных деревьев и точек разделения, мы имеем более простую модель, которая лучше обобщает, но имеет больше смещения. Кроме того, любое использование регуляризации упрощает модель за счет ограничения параметров, что увеличивает погрешность. Таким образом, гребенчатая регрессия имеет большее смещение, чем линейная регрессия.

Дисперсия представляет собой взаимодействие между данными и алгоритмом в ошибке. Любой алгоритм, обученный на другой выборке обучающих данных, будет изучать другую модель, будь то значения параметров или сами данные в непараметрической модели. Однако некоторые алгоритмы будут иметь большую чувствительность к колебаниям данных и склонны к переоснащению, изучая шум данных, а не обобщая их.

На приведенном ниже графике мы можем видеть концепции переобучения и недообучения. В этом примере у нас есть два класса с параболической границей решения между ними. Некоторые точки данных не идеально совпадают с этой границей, попадая не на ту ее сторону.

Оптимальная модель, которая хорошо обобщает, изучит параболу, несмотря на небольшие различия в некоторых данных.

Модель переобучения, то есть модель с высокой дисперсией, научится отображать каждую точку данных, что приведет к грубо параболической волнистой линии. С немного другой выборкой данных форма этой волнистой линии изменится, и при попытке сделать прогнозы о тестовых данных те, которые попадают на границу решения, вероятно, будут иметь более высокую частоту ошибок из-за плохого обобщения.

Неподходящая модель, модель с высоким смещением, будет изучать взаимосвязь, которую она предназначена для предположения, независимо от фактической формы границы решения, что приводит к прямой линии, которая плохо соответствует данным.

Распространенной метафорой для размышлений о предвзятости и дисперсии является то, насколько хорошо прогнозы теста попадают в яблочко точности. Модель с низким смещением и низкой дисперсией будет плотно сгруппирована вокруг центра с высокой точностью. Увеличение дисперсии увеличивает разброс прогнозов (то есть одни и те же тестовые данные будут иметь вариации в своих прогнозах из разных моделей). С другой стороны, увеличение смещения смещает кластеризацию прогнозов не по центру. Когда у нас есть и высокая дисперсия, и высокое смещение, модель работает довольно плохо.

В приведенной ниже визуализации яблочка мы бы сказали, что модель с высокой дисперсией и низким смещением является переоснащением, в то время как модель с высокой дисперсией и низкой дисперсией не соответствует, а модель с высокой дисперсией и высоким смещением просто плоха.

Понятия смещения и дисперсии объединяются, чтобы дать нам компромисс между смещением и дисперсией. Это идея о том, что по мере увеличения сложности модели увеличивается и дисперсия, а смещение уменьшается. Мы можем построить это как отношение между сложностью модели и ошибкой модели:

Общая ошибка модели представляет собой сумму дисперсии, квадрата смещения и ошибки из-за шума. На экстремально высоких и низких уровнях сложности модели мы имеем высокую общую ошибку из-за высокой дисперсии или высокого смещения. Цель выбора оптимальной модели для проблемы состоит в том, чтобы найти ту, которая минимизирует общую ошибку.

В реальных условиях модели с высокой дисперсией редко используются напрямую из-за их склонности к переоснащению. Вместо этого мы используем их как отдельных учеников в алгоритмах повышения и бэггинга, которые уменьшают дисперсию (и увеличивают смещение), чтобы дать гораздо меньшую общую ошибку. Однако распространены модели с высоким смещением, такие как логистическая или гребневая регрессия. Почему это?

По нескольким причинам: во-первых, упрощающие предположения ускоряют их обучение. Во-вторых, их прогнозы легче интерпретировать и объяснять. В-третьих, они более устойчивы к дисперсии, когда для начального обучения доступно не так много данных, особенно если сила регуляризации высока. И, наконец, они более устойчивы к дрейфу данных с течением времени. Эти соображения могут сделать модели с высоким смещением полезными на практике, хотя они все же должны иметь приемлемую производительность.

Таким образом, компромисс смещения и дисперсии является полезной концепцией для учета того, какие алгоритмы вы рассматриваете при решении проблемы.

Компромисс смещения и дисперсии и другие ключевые понятия для работы с моделями в реальных условиях описаны в моей колоде Карточки по машинному обучению: основные концепции моделирования. Посмотрите на Etsy!