Почему больше данных не всегда лучше

TL;DR Компромисс между смещением и дисперсией объясняет, почему меньшие модели с меньшим количеством параметров для обучения могут быть лучше.

Интуитивно понятно, что чем больше данных, тем лучше. Модель, обученная на большем количестве данных, должна быть более точной, чем модель, обученная на меньшем количестве данных, верно? Оказывается, ситуация сложнее. Больше данных может означать больше примеров или больше параметров. И десятилетиями известно, что наилучшее количество параметров — это не обязательно все параметры. Обычно при прогнозировании вне выборки существует «золотое пятно» при среднем числе параметров. Но это не просто эмпирическое наблюдение — у нас есть теоретическое объяснение почему, используя разложение ошибки на предвзятость и дисперсию.

Роль количества параметров

Влияние количества параметров модели на самом деле зависит от того, подгоняете ли вы набор данных или пытаетесь сделать прогнозы на дополнительных данных за пределами исходной обучающей выборки. Дополнительные параметры всегда улучшают соответствие набору данных, точно так же, как большее количество пикселей на камере всегда повышает реалистичность фотографии. При достаточном количестве параметров модель может интерполировать данные, то есть ошибка равна нулю. Это называется порогом интерполяции, и это происходит, когда количество параметров равно количеству примеров, что позволяет идеально подогнать примеры. Вы можете добавить еще больше параметров, но дополнительные параметры не могут уменьшить ошибку, потому что она уже равна нулю.

Однако если эти модели используются для прогнозирования другой выборки данных, например тестовых данных, то ошибка обычно увеличивается по мере приближения к порогу интерполяции. Построение графика ошибки набора тестовых данных относительно количества параметров обычно приводит к U-образной кривой. Чтобы свести к минимуму ошибку теста, оптимальное количество параметров находится между 0 и порогом интерполяции.

Почему? Разложение смещения-дисперсии

Почему существует U-образная кривая? Традиционный теоретический подход к объяснению этой модели ошибки теста состоит в том, чтобы разложить ошибку на систематическую ошибку и дисперсию выборки. Каждый дополнительный параметр, добавленный в модель, уменьшает систематическую ошибку, но увеличивает дисперсию выборки в ошибке теста. В результате возникает компромисс между смещением и дисперсией [2]. Важно отметить, что по мере добавления дополнительных параметров дополнительная ошибка из-за дисперсии выборки имеет тенденцию преобладать, поэтому люди думали, что хорошая производительность с миллиардами дополнительных параметров, чем примеры, должна быть «невозможна».

Позвольте мне глубже погрузиться в два компонента ошибки для тех, кто не знаком с этой теорией. Ошибка модели — это разница между ее предсказанием и истинным значением. Рассмотрим наилучшую модель, которая может соответствовать заданному классу моделей, то есть имеющую веса параметров, которые максимально приближают ее прогнозы к истинным значениям (наземная правда). Затем мы можем разложить тестовую ошибку на две части относительно этой лучшей модели:

  • Смещение – это разница между предсказаниями лучшей модели в классе моделей и истинными значениями.

Конечно, обычно мы не знаем лучшую модель в классе моделей — мы можем только попытаться оценить ее, подгоняя модели к данным. Это приводит к другому компоненту ошибки:

  • Дисперсия выборки – это разница между типичной моделью, подобранной на фактической выборке данных (которая будет различаться для каждой выборки), и лучшей моделью в классе моделей.

Обычно немного сложно понять эти два компонента, особенно дисперсию выборки.

Аналогия с прожектором

Вот аналогия, которая мне нравится, когда размерности данных и размерности модели совпадают, что немного упрощает визуализацию. Предположим, мы пытаемся оценить местоположение шара, парящего в воздухе, то есть его истинное местоположение имеет три измерения. Теперь предположим, что наш класс моделей был ограничен двумя измерениями земли (как по оцениваемым параметрам, так и по выходным прогнозам), поэтому любой прогноз модели будет просто тенью сферы. Тогда лучшая модель в этом классе — это тень прямо под сферой, где была бы тень от сферы, если бы свет был прямо над головой. Тогда «предвзятой» составляющей ошибки будет высота сферы над этой тенью. Но на самом деле мы не знаем, куда монтировать свет, чтобы получить лучшую модель. Вместо этого каждый образец данных можно рассматривать как источник света, установленный в другом месте на потолке, отбрасывающий на пол разные тени, что является предсказанием модели местоположения сферы. Затем распространение этих теней на полу является дисперсией выборки.

Общая ошибка подобранной модели представляет собой векторную сумму смещения и ее выборочной дисперсии. Применение теоремы Пифагора дает нам эту хорошо известную формулу:

Ошибка² = смещение² + дисперсия

Обратите внимание, что дисперсия уже возведена в квадрат, поскольку она определяется как квадрат стандартного отклонения. (Эта формула также предполагает, что смещение и дисперсия не коррелированы, что визуально означает, что они находятся под прямым углом.)

Но формула не так важна, как интуиция. И из этой формулы влияние количества параметров неочевидно.

Итак, вернемся к аналогии с прожектором. Если бы мы ограничили класс модели только одним измерением, скажем, только широтой, то смещение увеличилось бы, потому что лучшая тень не была бы непосредственно под сферой, а была бы ближайшей точкой на этой широте. Увеличение смещения приводит к увеличению ошибки. Однако диапазон возможных теней будет ограничен линией, поэтому дисперсия выборки уменьшится, что приведет к уменьшению ошибки. Приведет ли ограничение широты к лучшим моделям с меньшей общей ошибкой? Это зависит от. Увеличение смещения может быть компенсировано уменьшением дисперсии выборки, особенно в наборах зашумленных данных, которые повсюду отбрасывают тени.

В качестве альтернативы рассмотрите возможность добавления третьего измерения к двумерным теневым моделям, чтобы модели оценивали наилучшую высоту от «пола». Тогда смещение равно нулю, потому что лучшая модель может точно соответствовать местоположению сферы. Но будет ли это, учитывая выборки данных? Ясно, что трехмерная модель имеет гораздо большую дисперсию выборки, потому что она имеет более широкий диапазон оценок, учитывая, что она имеет три измерения для оценки. Будет ли общая ошибка ниже или нет, зависит от того, насколько зашумлены оценки, учитывая прожекторы, освещенные данными.

Что, если добавить еще больше измерений? Предположим, модель четырех или даже пяти измерений, которые трудно визуализировать. Смещение по-прежнему будет равно нулю — добавление ненужных размеров не влияет на смещение. Но будет гораздо больше возможных подгонок модели к данным. Теоретически выборка данных сферы никогда не будет отбрасывать тень в четвертом или пятом измерениях, но если набор данных очень зашумлен, измерения в этих измерениях могут быть ненулевыми, что значительно увеличивает дисперсию выборки.

Сводка на данный момент

Образцы данных — это прожекторы реальности, и мы интерпретируем тени параметров нашей модели. Слишком мало размерностей параметров, и даже наша лучшая модель с лучшими данными все еще очень далека от реальности. Слишком много параметров, и многогранные тени от прожекторов будут нас только сбивать с толку.

Говоря менее метафорически, чтобы свести к минимуму ошибку теста при прогнозировании новых данных, идеальная модель использует именно те параметры, которые необходимы. Меньшее количество параметров, чем необходимо, приведет к несоответствию данных, что приведет к систематической ошибке. Больше параметров, чем необходимо, приведет к переобучению, что может привести к получению ненулевых оценок ненужных параметров и увеличению дисперсии выборки модели. Стремитесь к золотой середине.

Помимо предвзятости

Но модели глубокого обучения имеют миллионы параметров и могут работать хорошо — как это возможно, учитывая компромисс между смещением и дисперсией? Оказывается, компромисс между смещением и дисперсией неполный. Не удалось изучить сложности ошибки, когда у вас гораздо больше параметров, чем порог интерполяции. См. мой пост о том, как избежать компромисса между смещением и дисперсией.

Библиография

[1] М. Белкин, Д. Хсу, С. Ма и С. Мандал, Согласование современной практики машинного обучения и компромисса между отклонениями, ArXiv181211118 Cs Stat, сентябрь 2019 г. , По состоянию на 29 октября 2021 г. [Онлайн]. Доступно: http://arxiv.org/abs/1812.11118

[2] Т. Хасти, Т. Хасти, Р. Тибширани и Дж. Х. Фридман, Элементы статистического обучения: анализ данных, вывод и прогнозирование. Нью-Йорк: Спрингер, 2001.