Математическое понимание компромисса смещения дисперсии

Понимание компромисса смещения и отклонения от уравнения

Многие из нас читали о смещении и дисперсии в различных местах литературы по ИИ, но все же многие люди не могут объяснить это с помощью математического уравнения. Люди всегда комментируют смещение-дисперсию всякий раз, когда строят модель, чтобы выяснить, можно ли использовать модель в реальном мире и насколько хороша будет ее производительность. В этой статье мы сосредоточимся на математическом уравнении, описывающем отклонение от отклонения, и попытаемся понять различные части этого уравнения с математической точки зрения. Позвольте мне сначала выделить некоторые предположения, которые необходимы для понимания уравнения:

Предположения

Существует набор гипотез H, который мы используем при обучении модели.
Существует реальная целевая функция f, которую мы пытаемся аппроксимировать с помощью алгоритма обучения и набора данных D. Эта функция f всегда неизвестна.
Когда мы берем набор данных D и применяем к нему алгоритм обучения, мы получаем функцию прогнозирования g, которая пытается аппроксимировать фактическую целевую функцию f.
Существует точка данных x, принадлежащая набору данных D.

Мы будем использовать приведенные выше предположения в уравнении ниже.

Поскольку основная цель этой статьи - понять уравнение отклонения-отклонения с математической точки зрения, мы рассмотрим уравнение напрямую, не вдаваясь в его вывод (пожалуйста, проверьте ссылки, если вы хотите понять вывод).

Прежде чем углубляться в объяснение, давайте сначала посмотрим на уравнение смещения и дисперсии:

Объяснение

В приведенном выше уравнении мы предполагаем, что смотрим на точку данных x и обнаруживаем ошибку. Теперь, чтобы понять правую часть, мы используем упомянутые выше предположения. Допустим, у нас есть набор гипотез H (который указывает класс функций, которые мы, вероятно, можем пройти во время обучения). Теперь предположим, что мы применяем алгоритм обучения, беря набор данных D и выполняя минимизацию эмпирического риска (обучение модели с использованием алгоритма оптимизации для минимизации эмпирических потерь) над ним, чтобы получить функцию-предиктор g. В приведенном выше уравнении g ^ D (x) указывает, что g явно привязан к набору данных D, потому что с разными реализациями набора данных D мы получим разные функции прогнозирования. Например: предположим, что у нас есть 10 различных реализаций набора данных D как: D1, D2, D3,… .., D10. Теперь, когда мы возьмем каждый из них и проведем эмпирическую минимизацию риска, мы получим разные предикторы, такие как g1, g2, g3, ……, g10 соответственно. Обратите внимание, что я взял только 10 наборов данных и в соответствии с этим существует 10 различных предикторов только для объяснения, но реализаций может быть бесконечно много.

Теперь представьте, что у нас есть много разных предикторов, обозначенных g_i, и мы берем их среднее значение, чтобы получить g ^ bar (x). С математической точки зрения можно показать, что g ^ bar (x) несколько лучше по сравнению с другими изученными предикторами и более близок к фактической целевой функции f. Теперь первая часть правой части в приведенном выше уравнении просто указывает дисперсию функции-предиктора g ^ D (x). С единственной реализацией набора данных D (что просто означает, что набор данных, который мы явно имеем с нами или предоставлен нам), мы получим некоторый предиктор g ^ D (x), и мы измеряем разброс различных предикторов вокруг среднего предиктора g ^ bar (x), который просто указывает отклонение.

Понимать вторую часть приведенного выше уравнения довольно просто: мы пытаемся измерить, насколько далеко прогноз нашего лучшего среднего предиктора g ^ bar (x) по отношению к фактической целевой функции f (x). Эта разница указывает на смещение в нашем прогнозе для точки данных x.

Практически говоря, пока мы обучаем модель и измеряем ошибку, у нас никогда не будет доступа к этому среднему предиктору, а также к фактической целевой функции, у нас есть некоторый набор данных, который мы пытаемся использовать для обучения модели, и некоторый набор гипотез на основе на наших решениях по моделированию. скажем, мы выбираем набор гипотез как нейронные сети для обучения на данном наборе данных. После обучения мы получим некоторую функцию-предиктор g ^ D (то есть нейронную сеть), с помощью которой мы можем измерить ошибку по точкам данных в нашем тестовом наборе. И теоретически любая ошибка, которую мы будем измерять, будет иметь некоторую часть, которая будет отнесена к смещению, а некоторая часть - к дисперсии, а также будет некоторая неприводимая ошибка, которая не показана в приведенном выше уравнении.

Посмотрев на приведенное выше уравнение, мы можем быстро связать такие понятия, как переобучение, в котором всякий раз, когда мы видим, что ошибка обучения очень мала, но ошибка теста высока, мы быстро говорим, что это переобучение, и это случай низкого смещения и высокого дисперсия. Здесь низкое смещение указывает на то, что средний предсказатель очень близок к фактической целевой функции f. И высокая дисперсия указывает на тот факт, что предикторы в нашем наборе гипотез слишком сильно разбросаны по отношению к среднему предиктору, то есть g ^ bar (x) означает, что с другим набором данных я получу другой предиктор, и они не близки к каждому. Другие. Итак, чтобы разрешить такую ситуацию, мы быстро начинаем применять методы регуляризации, которые теоретически уменьшают размер набора гипотез, накладывая ограничения (попробуйте связать формулировку регуляризации L1 и L2) на параметры модели. Интуитивно говоря, из-за этих ограничений по мере того, как набор гипотез уменьшается, дисперсия начинает уменьшаться, но снова начинает увеличиваться смещение. Причина повышенного смещения заключается в том, что, поскольку у нас есть ограниченный набор гипотез, средний предиктор теперь изменится и будет зависеть только от тех предикторов, которые присутствуют в сокращенном наборе гипотез, из-за чего его близость к фактической цели функция f может уменьшиться, что приведет к увеличению смещения.

Примечание

Когда вы видите в литературе уравнение смещения-дисперсии, существует еще одно ожидание по точкам данных x, которое просто указывает на то, что мы сообщаем ожидаемую ошибку по всем точкам данных в тестовом наборе, но в этой статье мы просто пытались понять уравнение относительно до одной точки данных.

Если вы хотите глубже погрузиться в подробности и увидеть, как выводится уравнение, не стесняйтесь смотреть ссылки:

использованная литература

Https://www.youtube.com/watch?v=zrEyxfl2-a8&list=PLD63A284B7615313A&index=8