Элементы для оптимизации моделей машинного обучения с учителем
Введение
Каждый раз, когда вы будете пытаться создать модель контролируемого машинного обучения (здесь различные типы моделей машинного обучения), вы должны считаться с компромиссом смещения и дисперсии. Независимо от того, сколько у вас данных или насколько хорошо вы их очищаете и обрабатываете, этот тип компромисса всегда будет.
Итак, давайте начнем с объяснения смещения и дисперсии, чтобы лучше понять, как эти два соотносятся. Прежде всего, и смещение, и дисперсия - это ошибки в алгоритме обучения, которые могут вызывать ошибочные предположения.
Эта статья не должна быть слишком технической, но она должна дать общее представление о том, что такое дисперсия, предвзятость и их сосуществование в каждой модели контролируемого машинного обучения. Внизу страницы будут ссылки на некоторые подробные статьи, которые помогут в детальном понимании темы.
Предвзятость
Смещение - это ошибка в вашей модели, которая может привести к чрезмерному обобщению отношений между элементами. Это можно понять как то, насколько прогнозы модели далеки от реальных значений.
Несмотря на небольшое смещение, прогнозы новых данных близки к реальным значениям; но с высоким смещением прогнозы далеки от реальных значений, и это вызвано недостаточным соответствием данных (недостаточное соответствие означает, что модель слишком проста для прогнозирования цели).
На рисунке выше вы можете увидеть пример высокого смещения в модели классификации, которая плохо обобщает данные. Синие точки в синей области - правильные прогнозы, и то же самое для красных точек в красной области. В этом примере много неверных прогнозов (синие точки в красной области и наоборот), потому что алгоритм слишком прост для этого набора данных и этой проблемы.
Дисперсия
Дисперсия - это ошибка в вашей модели из-за чувствительности к шуму в данных. Высокое значение этой ошибки может привести к переобучению, то есть, когда модель предиктора идеально подходит для обучающих примеров, но плохо работает с новыми данными; вместо этого, когда значение этой ошибки низкое, модель предиктора подходит как для обучающих примеров, так и для новых данных.
На этих двух рисунках вы можете увидеть пример модели с высокой дисперсией на обучающих примерах и новых данных. На изображении слева модель идеально подходит почти для всех данных, но на изображении справа модель правильно классифицирует только небольшой объем данных.
Это часто происходит, когда модель слишком сложна и тривиально подходит примеры обучения (слишком много параметров) или когда недостаточно данных для точной оценки параметров.
Компромисс смещения и отклонения
Основная цель машинного обучения - как можно лучше подогнать ваши данные, но при этом подгонять их как можно проще; это может быть достигнуто, когда алгоритм имеет низкое смещение и низкую дисперсию, но здесь вступает в игру компромисс смещения-дисперсии.
На изображении выше вы можете видеть, что сложность модели приводит к увеличению / уменьшению ошибок:
- Когда вы уменьшаете сложность модели, смещение увеличивается, а дисперсия уменьшается.
- Когда вы увеличиваете сложность модели, смещение уменьшается, а дисперсия увеличивается.
Ваша последняя задача - выбрать и поиграть с моделью, которая уравновешивает эти две ошибки, чтобы достичь наилучших результатов в предсказаниях невидимых данных.
Другие источники
Эти другие ресурсы полезны для более глубокого изучения этой темы:
- Мягкое введение в компромисс между отклонениями и отклонениями в машинном обучении Джейсона Браунли, Мастерство машинного обучения
- Компромисс смещения и дисперсии в Википедии
- Понимание компромисса смещения и дисперсии Скотт Фортманн-Роу
- Понимание компромисса смещения и дисперсии: обзор Мэтью Мэйо, KDnuggets
Где меня найти LinkedIn