Что такое предвзятость?
Смещение – это склонность алгоритма последовательно изучать неправильный шаблон, не принимая во внимание всю информацию в данных (недостаточное соответствие).
- Предвзятость используется, чтобы позволить модели машинного обучения учиться упрощенным способом. В идеале самая простая модель, которая может изучить весь набор данных и правильно предсказать его, является лучшей моделью. Следовательно, в модель вводится смещение с целью достижения максимально простой модели.
- Алгоритмы обучения на основе параметров обычно имеют высокую предвзятость и, следовательно, быстрее обучаются и легче понимаются. Однако слишком большое смещение приводит к чрезмерному упрощению модели и, следовательно, к недостаточному соответствию данных. Следовательно, эти модели менее гибки и часто терпят неудачу, когда применяются к сложным проблемам.
Математически это разница между средним прогнозом модели и ожидаемым значением. Таким образом, систематическая ошибка также используется для обозначения того, насколько средняя точность алгоритма изменяется при изменении входных/обучающих данных.
Подводя итог, можно сказать, что Предвзятость – это склонность изучать неверный шаблон.
◦ Модели с низким смещением:делаетменьше предположений о форме взаимосвязи между x и y.
— Предлагает меньше предположений о форме целевой функции.
Пример: деревья решений, метод k-ближайших соседей и метод опорных векторов
◦ Модели с высоким смещением: делается много предположений о форме взаимосвязи между x и y.
- Предлагает больше предположений о форме целевой функции
Пример: линейная регрессия, линейный дискриминантный анализ и логистическая регрессия.
Характеристики предвзятой модели следующие:
- Недостаточное соответствие. Модель с высоким смещением проще, чем должна быть, и, следовательно, имеет тенденцию не соответствовать данным. Другими словами, модель не может изучить и усвоить сложные закономерности набора данных.
- Низкая точность обучения. Смещенная модель не будет правильно соответствовать набору обучающих данных и, следовательно, будет иметь низкую точность обучения (или высокие потери при обучении).
- Неспособность решать сложные проблемы. Предвзятая модель слишком проста и, следовательно, часто не способна изучить сложные функции и решить относительно сложные проблемы.
В идеале вы хотите, чтобы ваша модель имела низкое смещение.
Что такое дисперсия?
Дисперсия – это склонность алгоритма изучать случайные вещи независимо от реального сигнала путем подгонки очень гибких моделей, которые слишком точно следуют ошибкам/шумам в данных (переобучение).
- Дисперсия данных — это изменчивость модели в случае использования разных обучающих данных. Это существенно изменило бы оценку целевой функции. Статистически для данной случайной величины дисперсия представляет собой математическое ожидание квадрата отклонения от ее среднего значения.
- Другими словами, чем выше дисперсия модели, тем сложнее модель и она может изучать более сложные функции. Однако, если модель слишком сложна для данного набора данных, где возможно более простое решение, модель с высокой дисперсией приводит к переоснащению модели.
- Когда модель хорошо работает на тренировочном наборе и не работает на тестовом наборе, говорят, что модель имеет дисперсию.
Обобщая, дисперсия – это склонность изучать случайный шаблон независимо от того, какой он на самом деле
◦ Модели с низкой дисперсией: небольшие изменения в обучающих данных не сильно повлияют на расчетную взаимосвязь.
— Предлагает небольшие изменения в оценке целевой функции с изменениями в обучающем наборе данных.
Пример: линейная регрессия, линейный дискриминантный анализ и логистическая регрессия
◦ Модели с высокой дисперсией: небольшие изменения в обучающих данных существенно повлияют на расчетную взаимосвязь.
- Предлагает большие изменения в оценке целевой функции с изменениями в обучающем наборе данных.
- Как правило, непараметрические алгоритмы машинного обучения, обладающие большой гибкостью, имеют высокую дисперсию.
Пример: деревья решений, метод k-ближайших соседей и метод опорных векторов
— Деревья решений имеют высокую дисперсию, которая даже выше, если деревья не обрезаются перед использованием.
Характеристики моделей с высокой дисперсией следующие:
- Переоснащение. Модель с высокой дисперсией будет слишком сложной. Это приводит к переоснащению модели.
- Низкая точность тестирования. Модель с высокой дисперсией будет иметь очень высокую точность обучения (или очень низкие потери при обучении), но низкую точность тестирования (или низкие потери при тестировании).
- Чрезмерное усложнение простых задач. Модель с высокой дисперсией имеет тенденцию быть чрезмерно сложной и в конечном итоге приводит к гораздо более сложной кривой, основанной на относительно простых данных. Таким образом, модель способна решать сложные задачи, но не способна эффективно решать простые задачи.
В идеале вы хотите, чтобы ваши модели имели низкую дисперсию.
Что такое компромисс между погрешностью и дисперсией?
- Если модель недостаточно подходит (высокое смещение), и вы хотите добиться низкого смещения, вы должны принять более высокую дисперсию, допуская большую сложность.
- Если модель переоснащается (высокая дисперсия) и вы хотите добиться низкой дисперсии, вы увеличиваете смещение, ограничивая сложность вашей модели.
В идеале мы хотим выбрать модель, которая точно фиксирует закономерности в обучающих данных, а также хорошо обобщает невидимые данные. Давайте воспользуемся приведенной ниже диаграммой, показывающей различные подгонки кривой к одному и тому же набору точек, чтобы понять, что это значит.
Мы видим, что линейная (степень = 1) подгонка является недостаточной подгонкой:
1) она не учитывает всю информацию в данных ( высокое смещение), но
2) оно не сильно изменится перед лицом нового набора точек из того же источника (низкая дисперсия).
С другой стороны, подгонка полинома более высокой степени (степень = 20) является чрезмерной подгонкой:
1) кривая очень хорошо соответствует заданным точкам данных. (низкое смещение), но
2) он рухнет перед лицом подмножеств или новых наборов точек из одного и того же источника, потому что тщательно учитывает все данные, тем самым теряя общность (высокая дисперсия).
идеальное соответствие, естественно, фиксирует закономерности в данных, достаточные для того, чтобы быть достаточно точными и обобщаемыми на другой набор точек из того же источника. К сожалению, почти во всех практических условиях практически невозможно сделать и то, и другое одновременно. Следовательно, для достижения хорошей производительности на данных за пределами обучающей выборки необходимо найти компромисс. Это называется компромиссом смещения и дисперсии.
Альтернативное объяснениесмещения и дисперсии компромисс
Другой способ графического рассмотрения компромисса смещения и дисперсии состоит в том, чтобы построить графическое представление ошибки, смещения и дисперсии в зависимости от сложности модели. На приведенном ниже графике зеленая пунктирная линия представляет собой дисперсию, синяя пунктирная линия представляет собой смещение, а красная сплошная линия представляет ошибку в прогнозе соответствующей модели.
- Поскольку смещение велико для более простой модели и уменьшается с увеличением сложности модели, линия, представляющая смещение, экспоненциальноубывает по мере увеличения сложности модели.
- Точно так же дисперсия высока для более сложной модели и низка для более простых моделей. Следовательно, линия, представляющая дисперсию, увеличивается экспоненциально по мере увеличения сложности модели.
- Наконец, видно, что с обеих сторон ошибка обобщения довольно высока. Как высокое смещение, так и высокая дисперсия приводят к более высокому уровню ошибок.
- Наиболее оптимальная сложность модели находится в середине, где пересекаются систематическая ошибка и дисперсия. Показано, что эта часть графика дает наименьшую ошибку и является предпочтительной.
- Кроме того, как обсуждалось ранее, модель не подходит для ситуаций с высоким смещением и подходит для ситуаций с высокой дисперсией.
- Алгоритмы параметрического или линейного машинного обучения часто имеют высокое смещение, но низкую дисперсию.
- Непараметрические или нелинейные алгоритмы машинного обучения часто имеют низкое смещение, но высокую дисперсию.
Пример, когда вы можете варьировать компромисс: Алгоритм k-ближайших соседей имеет низкое смещение и высокую дисперсию, но компромисс можно изменить, увеличив значение k что увеличивает количество соседей, которые вносят вклад в прогноз, и, в свою очередь, увеличивает смещение модели.
Я предлагаю вам перейти по этой ссылке, чтобы наглядно увидеть, как работает компромисс.
Я надеюсь, что эта статья поможет вам лучше понять концепции
Ссылки:
[1] Гарет Джеймс, Даниэла Виттен, Тревор Хасти и Роберт Тибширани, An Introduction to Statistical Learning with Application in R (2013 г.)
[2] Скотт Фортман-Роу, Понимание компромисса смещения и дисперсии (2012)
[3] Нежное введение в компромисс между смещением и дисперсией в машинном обучении