Что такое предвзятость?

Смещение – это склонность алгоритма последовательно изучать неправильный шаблон, не принимая во внимание всю информацию в данных (недостаточное соответствие).

  • Предвзятость используется, чтобы позволить модели машинного обучения учиться упрощенным способом. В идеале самая простая модель, которая может изучить весь набор данных и правильно предсказать его, является лучшей моделью. Следовательно, в модель вводится смещение с целью достижения максимально простой модели.
  • Алгоритмы обучения на основе параметров обычно имеют высокую предвзятость и, следовательно, быстрее обучаются и легче понимаются. Однако слишком большое смещение приводит к чрезмерному упрощению модели и, следовательно, к недостаточному соответствию данных. Следовательно, эти модели менее гибки и часто терпят неудачу, когда применяются к сложным проблемам.

Математически это разница между средним прогнозом модели и ожидаемым значением. Таким образом, систематическая ошибка также используется для обозначения того, насколько средняя точность алгоритма изменяется при изменении входных/обучающих данных.

Подводя итог, можно сказать, что Предвзятость – это склонность изучать неверный шаблон.

Модели с низким смещением:делаетменьше предположений о форме взаимосвязи между x и y.

— Предлагает меньше предположений о форме целевой функции.

Пример: деревья решений, метод k-ближайших соседей и метод опорных векторов

Модели с высоким смещением: делается много предположений о форме взаимосвязи между x и y.

- Предлагает больше предположений о форме целевой функции

Пример: линейная регрессия, линейный дискриминантный анализ и логистическая регрессия.

Характеристики предвзятой модели следующие:

  • Недостаточное соответствие. Модель с высоким смещением проще, чем должна быть, и, следовательно, имеет тенденцию не соответствовать данным. Другими словами, модель не может изучить и усвоить сложные закономерности набора данных.
  • Низкая точность обучения. Смещенная модель не будет правильно соответствовать набору обучающих данных и, следовательно, будет иметь низкую точность обучения (или высокие потери при обучении).
  • Неспособность решать сложные проблемы. Предвзятая модель слишком проста и, следовательно, часто не способна изучить сложные функции и решить относительно сложные проблемы.

В идеале вы хотите, чтобы ваша модель имела низкое смещение.

Что такое дисперсия?

Дисперсия – это склонность алгоритма изучать случайные вещи независимо от реального сигнала путем подгонки очень гибких моделей, которые слишком точно следуют ошибкам/шумам в данных (переобучение).

  • Дисперсия данных — это изменчивость модели в случае использования разных обучающих данных. Это существенно изменило бы оценку целевой функции. Статистически для данной случайной величины дисперсия представляет собой математическое ожидание квадрата отклонения от ее среднего значения.
  • Другими словами, чем выше дисперсия модели, тем сложнее модель и она может изучать более сложные функции. Однако, если модель слишком сложна для данного набора данных, где возможно более простое решение, модель с высокой дисперсией приводит к переоснащению модели.
  • Когда модель хорошо работает на тренировочном наборе и не работает на тестовом наборе, говорят, что модель имеет дисперсию.

Обобщая, дисперсия – это склонность изучать случайный шаблон независимо от того, какой он на самом деле

Модели с низкой дисперсией: небольшие изменения в обучающих данных не сильно повлияют на расчетную взаимосвязь.

— Предлагает небольшие изменения в оценке целевой функции с изменениями в обучающем наборе данных.

Пример: линейная регрессия, линейный дискриминантный анализ и логистическая регрессия

Модели с высокой дисперсией: небольшие изменения в обучающих данных существенно повлияют на расчетную взаимосвязь.

- Предлагает большие изменения в оценке целевой функции с изменениями в обучающем наборе данных.

  • Как правило, непараметрические алгоритмы машинного обучения, обладающие большой гибкостью, имеют высокую дисперсию.

Пример: деревья решений, метод k-ближайших соседей и метод опорных векторов

— Деревья решений имеют высокую дисперсию, которая даже выше, если деревья не обрезаются перед использованием.

Характеристики моделей с высокой дисперсией следующие:

  • Переоснащение. Модель с высокой дисперсией будет слишком сложной. Это приводит к переоснащению модели.
  • Низкая точность тестирования. Модель с высокой дисперсией будет иметь очень высокую точность обучения (или очень низкие потери при обучении), но низкую точность тестирования (или низкие потери при тестировании).
  • Чрезмерное усложнение простых задач. Модель с высокой дисперсией имеет тенденцию быть чрезмерно сложной и в конечном итоге приводит к гораздо более сложной кривой, основанной на относительно простых данных. Таким образом, модель способна решать сложные задачи, но не способна эффективно решать простые задачи.

В идеале вы хотите, чтобы ваши модели имели низкую дисперсию.

Что такое компромисс между погрешностью и дисперсией?

  • Если модель недостаточно подходит (высокое смещение), и вы хотите добиться низкого смещения, вы должны принять более высокую дисперсию, допуская большую сложность.
  • Если модель переоснащается (высокая дисперсия) и вы хотите добиться низкой дисперсии, вы увеличиваете смещение, ограничивая сложность вашей модели.

В идеале мы хотим выбрать модель, которая точно фиксирует закономерности в обучающих данных, а также хорошо обобщает невидимые данные. Давайте воспользуемся приведенной ниже диаграммой, показывающей различные подгонки кривой к одному и тому же набору точек, чтобы понять, что это значит.

Мы видим, что линейная (степень = 1) подгонка является недостаточной подгонкой:
1) она не учитывает всю информацию в данных ( высокое смещение), но
2) оно не сильно изменится перед лицом нового набора точек из того же источника (низкая дисперсия).

С другой стороны, подгонка полинома более высокой степени (степень = 20) является чрезмерной подгонкой:
1) кривая очень хорошо соответствует заданным точкам данных. (низкое смещение), но
2) он рухнет перед лицом подмножеств или новых наборов точек из одного и того же источника, потому что тщательно учитывает все данные, тем самым теряя общность (высокая дисперсия).

идеальное соответствие, естественно, фиксирует закономерности в данных, достаточные для того, чтобы быть достаточно точными и обобщаемыми на другой набор точек из того же источника. К сожалению, почти во всех практических условиях практически невозможно сделать и то, и другое одновременно. Следовательно, для достижения хорошей производительности на данных за пределами обучающей выборки необходимо найти компромисс. Это называется компромиссом смещения и дисперсии.

Альтернативное объяснениесмещения и дисперсии компромисс

Другой способ графического рассмотрения компромисса смещения и дисперсии состоит в том, чтобы построить графическое представление ошибки, смещения и дисперсии в зависимости от сложности модели. На приведенном ниже графике зеленая пунктирная линия представляет собой дисперсию, синяя пунктирная линия представляет собой смещение, а красная сплошная линия представляет ошибку в прогнозе соответствующей модели.

  • Поскольку смещение велико для более простой модели и уменьшается с увеличением сложности модели, линия, представляющая смещение, экспоненциальноубывает по мере увеличения сложности модели.
  • Точно так же дисперсия высока для более сложной модели и низка для более простых моделей. Следовательно, линия, представляющая дисперсию, увеличивается экспоненциально по мере увеличения сложности модели.
  • Наконец, видно, что с обеих сторон ошибка обобщения довольно высока. Как высокое смещение, так и высокая дисперсия приводят к более высокому уровню ошибок.
  • Наиболее оптимальная сложность модели находится в середине, где пересекаются систематическая ошибка и дисперсия. Показано, что эта часть графика дает наименьшую ошибку и является предпочтительной.
  • Кроме того, как обсуждалось ранее, модель не подходит для ситуаций с высоким смещением и подходит для ситуаций с высокой дисперсией.
  • Алгоритмы параметрического или линейного машинного обучения часто имеют высокое смещение, но низкую дисперсию.
  • Непараметрические или нелинейные алгоритмы машинного обучения часто имеют низкое смещение, но высокую дисперсию.

Пример, когда вы можете варьировать компромисс: Алгоритм k-ближайших соседей имеет низкое смещение и высокую дисперсию, но компромисс можно изменить, увеличив значение k что увеличивает количество соседей, которые вносят вклад в прогноз, и, в свою очередь, увеличивает смещение модели.

Я предлагаю вам перейти по этой ссылке, чтобы наглядно увидеть, как работает компромисс.

Я надеюсь, что эта статья поможет вам лучше понять концепции

Ссылки:

[1] Гарет Джеймс, Даниэла Виттен, Тревор Хасти и Роберт Тибширани, An Introduction to Statistical Learning with Application in R (2013 г.)

[2] Скотт Фортман-Роу, Понимание компромисса смещения и дисперсии (2012)

[3] Нежное введение в компромисс между смещением и дисперсией в машинном обучении