В этой статье я рассмотрю еще одну ключевую концепцию в нашей борьбе с чрезмерным/недостаточным обучением: компромисс между смещением и дисперсией.

Одной из основных целей машинного обучения является создание моделей, которые могут хорошо обобщать данные, которые еще не были просмотрены.

При построении модели важно убедиться, что она не слишком проста, чтобы не отражать тонкости задачи, и не слишком сложна, чтобы не пересекалась с обучающими данными.

В этой статье мы обсудим компромисс между смещением и дисперсией в машинном обучении и то, как поиск правильного баланса между ними может помочь улучшить производительность модели.

Начнем с определения того, что такое смещение и дисперсия:

Смещение: представляет ошибку предсказания модели из-за ее предположений. Например, линейная модель может иметь большое смещение, если проблема по своей сути нелинейна.

Предвзятость означает предвзятость. Он показывает, насколько модель склонна интерпретировать данные определенным образом, прежде чем увидеть сами данные.

Дисперсия: представляет ошибку прогнозирования модели из-за ее чувствительности к обучающим данным. Например, модель, которая очень хорошо подходит для обучающих данных, может иметь высокую дисперсию, если она плохо обобщает невидимые данные.

Дисперсия модели показывает, насколько хорошо модель соответствует обучающим данным. Модель с высокой дисперсией очень хорошо подходит для обучающих данных, но плохо обобщает невидимые данные.

Например, допустим, у вас есть регрессионная модель, которая прогнозирует цену дома на основе нескольких факторов, таких как размер, местоположение, количество спален и т. д.

Если модель имеет высокую дисперсию, это означает, что она слишком точно соответствует обучающим данным и может предсказывать неверные цены на дома, которых нет в обучающей выборке.

С другой стороны, если модель имеет низкую дисперсию, она может быть не в состоянии отразить сложность проблемы и, следовательно, плохо обобщать новые данные.

Как найти правильный баланс

Основная цель машинного обучения — уменьшить ошибку обобщения модели, которая возникает, когда модель применяется к невидимым данным. Для этого вам нужно найти правильный баланс между предвзятостью и дисперсией.

Выбор подходящей модели зависит от потребностей проблемы. Вот список полезных идей, над которыми стоит подумать, чтобы понять, как сбалансировать нашу модель.

  • Оцените сложность модели. Простые модели, такие как линейная регрессия, имеют высокое смещение и низкую дисперсию, а сложные модели, такие как нейронные сети, имеют низкое смещение и высокую дисперсию.
  • Размер набора данных. Увеличивая размер набора данных, вы можете уменьшить дисперсию модели. Действительно, с большим количеством обучающих данных у модели будет больше информации для обобщения и уменьшения соответствия обучающим данным.
  • Регуляризация. Регуляризация — это метод, используемый для управления сложностью модели. Например, регуляризация L1 и L2 может помочь уменьшить дисперсию модели.
  • Перекрестная проверка. Перекрестная проверка — это метод, используемый для оценки производительности модели на невидимых данных. Это помогает избежать переобучения и найти правильный баланс между смещением и дисперсией.
  • Выбор функций. Выбор функций — это еще один метод, используемый для управления сложностью модели. Удаление ненужных или избыточных функций может помочь уменьшить дисперсию модели.

Важно помнить, что не существует единой идеальной модели для всех задач машинного обучения. Необходимо тщательно оценить конкретные потребности проблемы и выбрать наиболее подходящую модель для данного контекста.

По этой причине аналитик должен перебирать разные модели на этапе, называемом выбор модели, и выбирать наиболее эффективную для данной проблемы.

Кроме того, важно всегда помнить, что уравновешивание смещения и дисперсии — это непрерывный и динамичный процесс. Производительность модели может меняться со временем и по мере поступления новой информации. Поэтому необходимо постоянно следить за работоспособностью модели и при необходимости вносить коррективы.

Примеры различных уровней уравновешивания предвзятости и дисперсии в машинном обучении

Давайте посмотрим, как работают модели при различных уровнях смещения и дисперсии. Модели обычно недооценены, переоснащены или сбалансированы.

Учитывая фиксированный фиктивный набор данных, модели на графиках показывают, как выглядят недообучение (высокое смещение, низкая дисперсия) и переоснащение (низкое смещение, высокая дисперсия) соответственно, и как они сбалансированы.

Наша цель как аналитиков состоит в том, чтобы найти правильный баланс, чтобы невидимые данные моделировались с несколько меньшей ошибкой по сравнению с наземной истиной (истиной наблюдаемого мира).

Эта короткая статья дополняет следующуюколлекцию статей, центральной темой которых является интерпретация и обобщение:

До скорой встречи!
Андрей

Если вы хотите поддержать мою деятельность по созданию контента, не стесняйтесь перейти по моей реферальной ссылке ниже и присоединиться к программе членства Medium. Я получу часть ваших инвестиций, и вы сможете беспрепятственно получить доступ к множеству статей Medium по науке о данных и многому другому.



Рекомендуемые чтения

Для интересующихся вот список книг, которые я рекомендовал по каждой теме, связанной с ML. На мой взгляд, есть НЕОБХОДИМЫЕ книги, которые сильно повлияли на мою профессиональную карьеру.
Отказ от ответственности: это партнерские ссылки Amazon. Я получу небольшую комиссию от Amazon за то, что порекомендую вам эти товары. Ваш опыт не изменится, и вы не будете платить больше, но это поможет мне масштабировать свой бизнес и создавать еще больше контента на основе ИИ.

Полезные ссылки (написано мной)