Компромисс между смещением и дисперсией в машинном обучении для начинающих

Элементы для оптимизации моделей машинного обучения с учителем

Введение

Каждый раз, когда вы будете пытаться создать модель контролируемого машинного обучения (здесь различные типы моделей машинного обучения), вы должны считаться с компромиссом смещения и дисперсии. Независимо от того, сколько у вас данных или насколько хорошо вы их очищаете и обрабатываете, этот тип компромисса всегда будет.
Итак, давайте начнем с объяснения смещения и дисперсии, чтобы лучше понять, как эти два соотносятся. Прежде всего, и смещение, и дисперсия - это ошибки в алгоритме обучения, которые могут вызывать ошибочные предположения.

Эта статья не должна быть слишком технической, но она должна дать общее представление о том, что такое дисперсия, предвзятость и их сосуществование в каждой модели контролируемого машинного обучения. Внизу страницы будут ссылки на некоторые подробные статьи, которые помогут в детальном понимании темы.

Предвзятость

Смещение - это ошибка в вашей модели, которая может привести к чрезмерному обобщению отношений между элементами. Это можно понять как то, насколько прогнозы модели далеки от реальных значений.
Несмотря на небольшое смещение, прогнозы новых данных близки к реальным значениям; но с высоким смещением прогнозы далеки от реальных значений, и это вызвано недостаточным соответствием данных (недостаточное соответствие означает, что модель слишком проста для прогнозирования цели).

На рисунке выше вы можете увидеть пример высокого смещения в модели классификации, которая плохо обобщает данные. Синие точки в синей области - правильные прогнозы, и то же самое для красных точек в красной области. В этом примере много неверных прогнозов (синие точки в красной области и наоборот), потому что алгоритм слишком прост для этого набора данных и этой проблемы.

Дисперсия

Дисперсия - это ошибка в вашей модели из-за чувствительности к шуму в данных. Высокое значение этой ошибки может привести к переобучению, то есть, когда модель предиктора идеально подходит для обучающих примеров, но плохо работает с новыми данными; вместо этого, когда значение этой ошибки низкое, модель предиктора подходит как для обучающих примеров, так и для новых данных.

На этих двух рисунках вы можете увидеть пример модели с высокой дисперсией на обучающих примерах и новых данных. На изображении слева модель идеально подходит почти для всех данных, но на изображении справа модель правильно классифицирует только небольшой объем данных.
Это часто происходит, когда модель слишком сложна и тривиально подходит примеры обучения (слишком много параметров) или когда недостаточно данных для точной оценки параметров.

Компромисс смещения и отклонения

Основная цель машинного обучения - как можно лучше подогнать ваши данные, но при этом подгонять их как можно проще; это может быть достигнуто, когда алгоритм имеет низкое смещение и низкую дисперсию, но здесь вступает в игру компромисс смещения-дисперсии.

На изображении выше вы можете видеть, что сложность модели приводит к увеличению / уменьшению ошибок:

Когда вы уменьшаете сложность модели, смещение увеличивается, а дисперсия уменьшается.
Когда вы увеличиваете сложность модели, смещение уменьшается, а дисперсия увеличивается.

Ваша последняя задача - выбрать и поиграть с моделью, которая уравновешивает эти две ошибки, чтобы достичь наилучших результатов в предсказаниях невидимых данных.

Другие источники

Эти другие ресурсы полезны для более глубокого изучения этой темы:

Мягкое введение в компромисс между отклонениями и отклонениями в машинном обучении Джейсона Браунли, Мастерство машинного обучения
Компромисс смещения и дисперсии в Википедии
Понимание компромисса смещения и дисперсии Скотт Фортманн-Роу
Понимание компромисса смещения и дисперсии: обзор Мэтью Мэйо, KDnuggets

Где меня найти LinkedIn