«В поисках баланса: предвзятость и вариативность в машинном обучении и аналогия с гольфом»

Темы, которые мы собираемся обсудить.

что

Предвзятость
дисперсия
переоснащение
недооснащение
компромисс дисперсии смещения
декомпозиция дисперсии смещения

Скрытая правда

Чтобы понять компромисс между предвзятостью и дисперсией, давайте начнем с приведенного вами примера. У вас есть набор данных, состоящий из CGPA, IQ и LPA (зарплаты) 1000 студентов колледжа. Ваша цель — построить модель машинного обучения, которая может прогнозировать LPA данного учащегося на основе их данных CGPA и IQ.

Чтобы установить математическую связь между входными переменными (CGPA и IQ) и целевой переменной (LPA), вы можете использовать модель линейной регрессии, которая предполагает линейную связь между переменными.

Уравнение модели будет выглядеть так: LPA = b0 + b1 * CGPA + b2 * IQ.

Однако, поскольку у вас есть только выборка данных, а не все население, вам необходимо делать прогнозы или оценки данных о населении. Другими словами, вы хотите найти модель, которая точно соответствует истинному математическому взаимодействию между переменными, обозначаемому как y = f(x) + неустранимая ошибка.

Неустранимая ошибка — это естественная ошибка, которую нельзя устранить или уменьшить. Он фиксирует факторы, выходящие за рамки вашей модели, такие как ошибки измерения или ненаблюдаемые переменные. Мы ничего не можем сделать с этой ошибкой, поэтому наша цель — минимизировать приводимую ошибку.

Чтобы аппроксимировать истинное соотношение, мы стремимся найти формулу или математическое соотношение, которое очень похоже на f(x). Назовем это приближение y’ = f’(x). Когда мы делаем прогнозы, используя нашу модель, мы получаем y_hat, который не совсем равен истинному y,

введение термина ошибки:

уменьшаемая ошибка = f(x) — f’(x), что также может быть выражено как (y — y_hat).

Компромисс между смещением и дисперсией заключается в поиске правильного баланса между смещением и дисперсией в нашей модели, чтобы минимизировать эту уменьшаемую ошибку. Смещение относится к ошибке, вызванной аппроксимацией реальной проблемы упрощенной моделью. Модель с высоким смещением имеет тенденцию недооценивать данные, то есть чрезмерно упрощает отношения и может не фиксировать важные закономерности. С другой стороны, дисперсия относится к чувствительности модели к колебаниям обучающих данных. Модель с высокой дисперсией имеет тенденцию к переобучению данных, то есть она фиксирует шум или случайные колебания вместо основных закономерностей.

В контексте компромисса между смещением и дисперсией мы хотим уменьшить уменьшаемую ошибку, управляя как смещением, так и дисперсией. Увеличивая сложность модели, мы можем уменьшить систематическую ошибку и лучше фиксировать сложные взаимосвязи в данных. Однако это может привести к более высокой дисперсии и повышенной склонности к переобучению. Наоборот, уменьшив сложность модели, мы можем уменьшить дисперсию, но рискуем привести к более высокому смещению и недообучению данных.

Уменьшаемая ошибка=bias²+var

Цель состоит в том, чтобы найти золотую середину, в которой модель имеет низкое смещение и малую дисперсию, установив баланс между недообучением и переоснащением. Этого можно достичь с помощью таких методов, как регуляризация, перекрестная проверка или ансамблевые методы, которые объединяют несколько моделей. Понимая и управляя компромиссом между смещением и дисперсией, мы можем улучшить прогностическую эффективность наших моделей машинного обучения.

«Компромисс» в соотношении смещения и дисперсии относится к тому факту, что сведение к минимуму смещения обычно увеличивает дисперсию, и наоборот.

Некоторые вопросы

Как бы вы математически определили смещение и дисперсию?

Как смещение и дисперсия математически связаны с переоснащением и недообучением?

Почему существует математический компромисс между смещением и дисперсией?

Ожидаемое значение и отклонение

Ожидаемое значение представляет собой средний результат случайной величины по большому количеству испытаний или экспериментов.

В простом смысле ожидаемое значение случайной величины — это долгосрочное среднее значение повторений эксперимента, который она представляет. Например, ожидаемое значение броска шестигранного игрального кубика равно 3,5, потому что при множестве бросков мы ожидаем получить в среднем около 3,5.

Ожидаемое значение - это не что иное, как среднее значение населения, не совсем грубо говоря

Дискретная случайная величина

Начнем с формулы ожидаемого значения для дискретной случайной величины.

Для дискретной случайной величины X, которая может принимать конечное или счетно бесконечное число значений, ожидаемое значение (также известное как среднее или среднее) рассчитывается как:

E(X) = Σ (x * P(X = x))

В этой формуле:

Σ представляет собой символ суммирования, указывающий, что нам нужно просуммировать все возможные значения X.
x представляет каждое возможное значение, которое может принимать X.
P(X = x) представляет вероятность того, что X примет значение x.

Чтобы вычислить ожидаемое значение, мы умножаем каждое возможное значение X на соответствующую ему вероятность, а затем суммируем эти произведения.

Теперь давайте перейдем к формуле ожидаемого значения для

непрерывная случайная величина.

Для непрерывной случайной величины X, которая может принимать любое значение в непрерывном диапазоне, ожидаемое значение вычисляется с использованием интеграла, а не суммирования.

Ожидаемое значение (среднее) непрерывной случайной величины X с функцией плотности вероятности (PDF) f(x) определяется выражением:

E(X) = ∫ (x * f(x)) dx

В этой формуле:

∫ представляет собой интегральный символ, указывающий, что нам нужно интегрировать по всему диапазону X.
x представляет собой переменную интегрирования, которая принимает значения в диапазоне X.
f(x) представляет функцию плотности вероятности X.

Чтобы вычислить ожидаемое значение, мы умножаем каждое значение x на соответствующую плотность вероятности (f(x)), а затем интегрируем по всему диапазону X.

Важно отметить, что ожидаемое значение представляет собой среднюю или центральную тенденцию случайной величины, обеспечивая меру ее долгосрочного среднего поведения.

Дисперсия совокупности, обозначаемая как Var(X), измеряет разброс или изменчивость случайной величины X вокруг ее ожидаемого значения. Он количественно определяет, насколько значения X отклоняются от их среднего значения.

Формула для вычисления дисперсии населения:

Var(X) = E[X²] — (E[X])²

Давайте разберем значение и вывод этой формулы:

Ожидаемое значение (E[X]): ожидаемое значение, E[X], представляет собой среднее значение или среднее значение случайной величины X. Оно представляет центральную тенденцию или типичное значение, которое принимает X.
Ожидаемое значение квадратов значений (E[X²]): E[X²] — это ожидаемое значение X в квадрате. Он измеряет среднее квадратов значений X.
Вывод формулы дисперсии. Чтобы вывести формулу дисперсии, мы начнем с определения дисперсии как среднего квадрата отклонения от среднего.

Вар(Х) = Е[(Х - Е[Х])²]

Разлагая квадратный член, получаем:

Var(X) = E[X² — 2X * E[X] + (E[X])²]

Теперь давайте распределим оператор ожидания по расширенным терминам:

Var(X) = E[X²] — 2 * E[X * E[X]] + E[(E[X])²]

Поскольку E[X * E[X]] может быть записано как E[X] * E[X], мы имеем:

Var(X) = E[X²] — 2 * E[X]² + E[(E[X])²]

Упрощая дальше, мы замечаем, что E[(E[X])²] равно (E[X])²:

Var(X) = E[X²] — 2 * E[X]² + (E[X])²

Комбинируя одинаковые члены, мы получаем окончательную формулу для дисперсии:

Var(X) = E[X²] — (E[X])²

Эта формула говорит нам, что дисперсия случайной величины X равна ожидаемому значению X в квадрате минус квадрат ожидаемого значения X. Она представляет собой среднеквадратичное отклонение X от его среднего значения.

РАЗЛОЖЕНИЕ ДИСПЕРСИИ СМЕЩЕНИЯ

Декомпозиция смещения-дисперсии — это способ анализа ожидаемой ошибки обобщения алгоритма обучения по отношению к конкретной проблеме путем выражения ее в виде суммы трех очень разных величин: смещения, дисперсии и неустранимой ошибки.

Смещение: это ошибка из-за ошибочных предположений в алгоритме обучения. Высокое смещение может привести к тому, что алгоритм упустит соответствующие отношения между функциями и целевыми выходными данными (недообучение).

Дисперсия: это ошибка из-за чувствительности к небольшим колебаниям в тренировочном наборе. Высокая дисперсия может привести к тому, что алгоритм будет моделировать случайный шум в обучающих данных, а не предполагаемые выходные данные (переобучение).

Неустранимая ошибка: это шумовой термин. Эта часть ошибки связана с присущим самой задаче шумом и не может быть уменьшена ни одной моделью.

потеря = устранимая ошибка неустранимая ошибка

потеря=смещение²+дисперсия+неисправимая ошибка

ИНТУЦИЯ

Конечно! Давайте используем пример игрока в гольф, который делает удары, чтобы проиллюстрировать интуицию, стоящую за предвзятостью и дисперсией.

Представьте себе игрока в гольф, который хочет ударить мячом по определенному месту на поле. Игрок в гольф представляет нашу модель машинного обучения, и каждый удар, который делает игрок в гольф, соответствует другой модели, обученной на одном и том же наборе данных, но с некоторой изменчивостью.

В этом контексте смещение относится к среднему отклонению игрока от желаемого места. Если игрок в гольф постоянно наносит удары далеко от цели, это указывает на высокую предвзятость. С другой стороны, если удары игрока в гольф, как правило, плотно сгруппированы вокруг целевой точки, систематическая ошибка незначительна.

В этой аналогии дисперсия представляет собой разброс или изменчивость ударов игрока в гольф. Если удары игрока в гольф разбросаны по всему полю, это указывает на высокую дисперсию, предполагая, что игра игрока крайне непостоянна. И наоборот, если кадры последовательно расположены близко друг к другу, дисперсия будет низкой.

Чтобы уменьшить смещение, игрок в гольф должен приложить больше усилий и внести коррективы в свою технику замаха. Точно так же в машинном обучении, чтобы уменьшить предвзятость, нам нужно использовать более сложные модели или алгоритмы, которые могут фиксировать сложные закономерности в данных. Например, использование полиномиальной регрессии или деревьев решений с большей глубиной может помочь уменьшить систематическую ошибку.

Однако увеличение сложности моделей для уменьшения смещения может привести к увеличению дисперсии. В нашей аналогии с гольфом, если игрок вкладывает слишком много энергии в свои удары, он может ударить по мячу под разными углами и направлениями, в результате чего удары будут больше рассеиваться. Точно так же в машинном обучении сложные модели могут быть чувствительны к небольшим изменениям обучающих данных, что приводит к более высокой дисперсии.

Чтобы уменьшить дисперсию, можно применять методы регуляризации. Регуляризация добавляет штрафной член к целевой функции модели, препятствуя использованию чрезмерно сложных моделей. Это помогает уменьшить изменчивость и делает модель более устойчивой к изменениям обучающих данных.

Таким образом, компромисс между смещением и дисперсией предполагает, что, пытаясь уменьшить смещение, мы можем увеличить дисперсию, и наоборот. Поиск правильного баланса зависит от конкретной проблемы и имеющихся данных. Аналогия с игроком в гольф помогает проиллюстрировать идею о том, что уменьшение смещения может потребовать больше энергии или сложности, в то время как уменьшение дисперсии может потребовать регуляризации или методов контроля изменчивости прогнозов модели.

bias-variance-tradeoff.ipynb — Colaboratory (google.com)

Потеря может быть разбита на смещение²+дисперсию+неустранимую ошибку