Вас не смущает термин «Компромисс дисперсии смещения»? Если да, то не волнуйтесь. В этой статье я расскажу в упрощенной форме Что такое компенсация смещения дисперсии в машинном обучении. Так что потратьте несколько минут на эту статью и поймите концепцию Компромисс дисперсии смещения.

Теперь без дальнейших церемоний, давайте начнем -

Что такое компромисс смещения в машинном обучении?

Прежде чем переходить к Компромиссу отклонения отклонения, сначала разберитесь, что такое предвзятость и отклонение в машинном обучении. ?

Что такое предвзятость и дисперсия в машинном обучении?

Алгоритмам машинного обучения под наблюдением требуется супервайзер для обучения, и этот супервизор — не что иное, как данные для обучения. Данные для обучения используются для обучения алгоритмов машинного обучения под наблюдением.

В контролируемом машинном обучении есть два значения. Одно из них — Фактическое значение, а другое — Прогнозируемое значение. Фактическое значение — это значение, которое у нас уже есть, а Прогнозируемое значение — это значение, которое прогнозирует модель.

Что такое предвзятость?

Смещение – это разрыв между фактическим значением и прогнозируемым значением. Возможно, вы слышали слова High Bias и Low Bias. Итак, следующий вопрос: Что такое высокая и низкая систематическая погрешность?

Высокая погрешность означает, что прогнозируемое значение далеко от фактического значения. Или вы можете сказать, что существует огромный разрыв между прогнозируемым значением и фактическим значением.

Принимая во внимание, что Низкая погрешность означает, что прогнозируемое значение ближе к фактическому значению или между фактическим и прогнозируемым значением имеется небольшой разрыв.

Итак, вы поняли Предвзятость, низкая предвзятость и высокая предвзятость. Теперь давайте перейдем к Дисперсия.

Что такое дисперсия?

Дисперсия означает, насколько прогнозируемые значения разбросаны по отношению друг к другу. В дисперсии есть низкая дисперсия и высокая дисперсия.

Низкая дисперсия означает, что все прогнозируемые значения находятся в тесной группе и очень близки друг к другу. В то время как при высокой дисперсии все прогнозируемые значения далеки друг от друга.

Теперь давайте разберемся с низкой погрешностью, высокой погрешностью, низкой дисперсией и высокой дисперсией с помощью этого изображения.

Примечание. На этом изображении самый маленький круг является целевым значением.

Итак, давайте начнем со сценария 1 (низкое смещение и низкая дисперсия). Как я упоминал ранее, низкое смещение означает, что разница между фактическим и прогнозируемым значением меньше. Низкая дисперсия означает, что прогнозируемые значения находятся в близкой группе. Вот почему вы можете видеть, что в сценарии 1 все прогнозируемые значения ближе к целевому значению (маленький кружок) и образуют тесный кластер.

В сценарии 2 (низкая погрешность и высокая дисперсия)– из-за низкой погрешности все прогнозируемые значения ближе к целевому значению (маленький кружок ), но из-за высокой дисперсии значения разбросаны и далеки друг от друга.

Перейдем к сценарию 3 (высокая погрешность и низкая дисперсия). Из-за высокой погрешности прогнозируемые значения далеки от целевого значения (маленький кружок), но из-за низкая дисперсия они в закрытой группе.

В последнем сценарии 4 (высокая погрешность и высокая дисперсия) все прогнозируемые значения далеки от целевого значения из-за высокой погрешности и далеки друг от друга из-за высокая дисперсия.

Надеюсь, теперь вы поняли всю концепцию Bias и Variance в машинном обучении. Итак, давайте перейдем к компромиссу смещения и дисперсии в машинном обучении.

Компромисс дисперсии смещения в машинном обучении

Мы поймем компромисс отклонения смещения с помощью этого графика.

Мы будем строить этот график по мере того, как будем переходить к понятиям. Как видно на графике, ошибка прогноза находится по оси Y, а сложность модели — по оси X. Как ошибка прогнозирования, так и сложность модели имеют низкий и высокий предельные значения.

В контролируемых алгоритмах машинного обучения у нас есть обучающие данные и тестовые данные. Итак, давайте двигаться дальше с графиком. Я обозначу тестовые данные красным кружком и тренировочные данные зеленым кружком на графике.

Положение обучающих данных и тестовых данных является отправной точкой. И в этом месте вы можете видеть, что сложность модели низкая, а ошибка прогноза высока из-за сценария Высокое смещение и низкая дисперсия. Это начальный сценарий модели.

Но тогда мы попробуем увеличить сложность модели и уменьшить ошибку предсказания. Это наша цель. Поэтому, когда мы увеличиваем сложность модели от нижнего предела до верхнего предела, давайте посмотрим на поведение или путь тестовых данных.

Как видно на графике, когда мы попытались увеличить сложность модели, после определенного момента ошибка предсказания тестовых данных снова увеличилась.

Теперь давайте посмотрим путь и поведение данных обучения после увеличения сложности модели.

Как видно на этом графике, когда мы увеличили сложность модели, ошибка прогноза обучающих данных уменьшилась.

Такое общее поведение обучающих данных и тестовых данных после увеличения сложности модели известно как Высокая дисперсия и низкое смещение.

В левой части графика отображается поведение Низкая дисперсия и высокая погрешность, тогда как в правой части графика вы можете см. поведение Высокая дисперсия и низкая погрешность. С левой стороны вы увидите Недообучение, а справа — Переоснащение.

Переоснащение и недооснащение

Переобучение — это проблема, когда вы предоставляете дополнительные данные на этапе обучения. Недообучение — это противоположность Переоснащению. Это означает, что вы передаете меньше данных на этапе обучения. Тогда и ваша модель сталкивается с проблемой.

Таким образом, в недообучении существует высокая ошибка прогноза как в обучающих данных, так и в тестовых данных. А в разделе Переобучение, где высокая дисперсия и низкое смещение, для тестовых данных вы увидите меньшую точность. Меньшая точность означает большую ошибку прогноза.

В то время как для данных обучения в правой части графика вы можете видеть высокую точность, что означает низкую ошибку прогноза.

Но теперь нам нужно найти наилучший или оптимальный баланс ошибки прогнозирования между тестовыми данными и данными обучения. И где мы можем найти этот баланс, очевидно, в середина графика. И эта середина является иллюстрацией Компромисса дисперсии смещения.

В этой позиции Компромисс вы можете увидеть оптимальный баланс ошибки прогноза между тестовыми данными и данными обучения.

Итак, все дело в компромиссе смещения дисперсии в машинном обучении. Надеюсь, вы легко поняли всю концепцию. Теперь пришло время закругляться.

Вывод

В этой статье вы поняли Компромисс дисперсии смещения в машинном обучении. Если у вас есть какие-либо вопросы, не стесняйтесь спрашивать меня в разделе комментариев.

Если вы нашли эту статью полезной, пожалуйста, поделитесь ею с другими.

Всего наилучшего!

Счастливого обучения!