Введение в смещение, дисперсию, компромисс между смещением и дисперсией и его влияние на модель.

Привет, читатели,

Как абсолютному новичку в машинном обучении, некоторые концепции могут показаться ошеломляющими. Предвзятость и дисперсия относятся к числу таких понятий, которые часто создают путаницу. Очень важно понимать такие базовые, но важные концепции.

Ошибка смещения

Термин «Предвзятость» означает предвзятое мнение или сильную склонность к чему-либо. Точно так же ошибка смещения — это ошибка, возникающая в результате предположений (в основном неточных) о целевой функции в модели. Это происходит, когда делаются предположения о сопоставлении входных и выходных данных, из-за чего алгоритмы имеют меньшую гибкость для обучения на обучающем наборе. Смещение приводит к игнорированию функций в наборе данных, что не позволяет модели полностью адаптироваться к обучающему набору.

Низкая погрешность: делается меньше предположений о целевой функции. KNN и дерево решений можно рассматривать как алгоритмы машинного обучения с низким смещением.

Высокое смещение: делается больше предположений о целевых функциях. Множественную линейную регрессию и логистическую регрессию можно рассматривать как алгоритмы машинного обучения с большим смещением.

Ошибка отклонения

С точки зрения машинного обучения дисперсия означает разницу в совпадениях между наборами данных. Ошибка дисперсии — это ошибка, возникающая, когда модель очень чувствительна к обучающим данным, т. е. на модель сильно влияют особенности обучающих данных. Эта ошибка возникает, когда многочисленные параметры целевой функции сильно зависят от набора обучающих данных, что также приводит к различным оценкам, когда модель получает новые обучающие данные.

Низкая дисперсия: когда изменения в наборе данных приводят к небольшим изменениям оценки функции, т. е. совпадения разных наборов данных сильно не различаются. Линейную регрессию можно рассматривать как алгоритм машинного обучения с низкой дисперсией.

Высокая дисперсия: когда изменения в наборе данных приводят к большим изменениям оценок функции, т. е. разница между подборами наборов данных значительна. Обычно алгоритмы с высокой сложностью имеют высокую дисперсию, поскольку такие алгоритмы могут свободно изучать любую функциональную форму из набора обучающих данных. SVM и дерево решений можно рассматривать как алгоритмы машинного обучения с высокой дисперсией.

Влияние дисперсии и предвзятости на модель

По сути, смещение — это то, насколько далеки прогнозы от точности, а дисперсия — это степень, в которой прогнозы различаются между различными реализациями модели.

Алгоритмы с низкой дисперсией, как правило, являются последовательными и простыми по структуре с ограниченной сложностью. Такие алгоритмы быстрее обучаются.
Алгоритмы с низким смещением, как правило, точны и гибки в структурах высокой сложности. Алгоритмы с низким смещением обучаются медленнее.
Алгоритмы с высокой дисперсией изучают случайный шум вместе с лежащим в его основе шаблоном из обучающего набора, который вносит несогласованность в модель. Это часто приводит к переоснащению.
Алгоритмы с высоким смещением упускают важные связи между функциями и выходными данными, что приводит к недообучению. Прогнозы в этом случае далеки от правильности.

Для хорошей модели общая ошибка прогноза должна быть минимизирована.
Общая ошибка прогноза = Смещение² + Дисперсия + Неустранимая ошибка
Можно уменьшить только ошибки модели, поэтому необходимо свести к минимуму ошибку смещения и ошибку дисперсии.

Компромисс между смещением и дисперсией

Почему существует компромисс? Почему мы не можем взять лучшее из обоих миров?
Нет никакого способа избежать связи между предвзятостью и дисперсией. Одновременно свести к минимуму обе ошибки довольно сложно. Уменьшение смещения увеличит дисперсию, а уменьшение дисперсии увеличит смещение. Проще говоря, увеличение точности приведет к снижению согласованности и наоборот.

Модель должна пробиться, чтобы найти баланс между предвзятостью и дисперсией. Модель должна установиться где-то посередине сложности (выделено пунктирной линией на изображении ниже), поскольку модель не может одновременно иметь высокую сложность (в случае низкого смещения) и ограниченную сложность (в случае низкой дисперсии). время.

Важно найти оптимальный баланс смещения и дисперсии, чтобы избежать переобучения или недообучения.