Разложение изменчивости

Эта статья является разделом Линейная регрессия в NutShell.

Есть некоторые метрики, которые необходимо понимать, чтобы определить, являются ли регрессионные модели точными или вводят в заблуждение.

Следовать ошибочной модели — плохая идея, поэтому важно, чтобы вы могли количественно оценить, насколько точна ваша модель. Одним из показателей является дисперсия.

Другие понятия, такие как предвзятость, компромисс между предвзятостью и дисперсией, будут рассмотрены в следующих статьях. Подпишитесь, чтобы получать уведомления.

Что такое дисперсия?

С точки зрения линейной регрессии дисперсию можно определить как меру того, насколько наблюдаемые значения отличаются от среднего значения прогнозируемых значений. При разработке регрессионных моделей целью является получение низкой дисперсии.

На жаргоне машинного обучения разница в совпадении между наборами данных называется дисперсией.

Так что же представляет собой декомпозиция изменчивости?

Рассмотрим пример, в котором исследуется взаимосвязь между месячным заработком человека и рядом факторов, которые могут влиять на месячный заработок, включая IQ (IQ), знания, квалификацию, опыт и срок пребывания в должности (годы на текущей работе) каждого человека.

Цель состоит в том, чтобы определить, насколько изменчивость переменной результата (средний месячный заработок) объясняется всеми независимыми переменными.

Мы знаем, что существует изменчивость в доходах — одни люди получают высокий доход, другие — низкий, а многие люди находятся посередине. Но доход также можно объяснить факторами, не включенными в регрессию, такими как удача, трудолюбие, выбор карьеры и другие вещи, которые мы не измеряем.

Некоторые различия в доходах объясняются различиями в наших объясняющих переменных.

Например,

Мы знаем, что в среднем люди с большим опытом и квалификацией получают более высокие доходы. Поэтому при оценке регрессионной модели нам необходимо учитывать следующие параметры:

Объясняемая изменчивость — изменчивость, объясняемая независимыми переменными, используемыми в нашей регрессии.
Необъяснимая изменчивость — изменчивость, объясняемая другими факторами, которыми мы пренебрегаем или не учитываем, например, по счастливой случайности.
Общая изменчивость — изменчивость переменной результата (дохода)
Коэффициент детерминации. Процент изменчивости вашей переменной результата объясняется вашими независимыми переменными.

Объяснение изменчивости

Объясненная сумма квадратов (SSE), также называемая регрессией суммы квадратов (SSR), – это мера изменчивости переменной результата, которая объясняется объяснительной переменные в вашей регрессии.

Регрессия суммы квадратов (SSR) рассчитывается как:

где,

y’ — прогнозируемое значение зависимой переменной.
y̅ ’ — среднее значение зависимой переменной

Математически SSR представляет собой сумму разницы между прогнозируемым значением и средним значением зависимой переменной.

SSR — это мера, которая описывает, насколько хорошо линия регрессии соответствует данным.

Остаточная или необъяснимая изменчивость

Остаточная сумма квадратов остатка (RSS), также называемая Ошибка суммы квадратов (SSE), представляет собой меру изменчивости переменной результата, которая не объясняется ваша регрессия.

Ошибка суммы квадратов (SSE) рассчитывается как:

Где,

y – фактическое значение зависимой переменной.
y’ –прогнозируемое значение зависимой переменной.

В нашем примере это расстояние между фактическим месячным доходом человека и месячным доходом, предсказанным на линии регрессии.

Остаточная сумма квадратов (SSR) представляет собой совокупную оценку того, насколько изменчивость не объясняется линией регрессии.

Общая изменчивость

Общая сумма квадратов (SST), также называемая общей суммой
квадратов (TSS), является мерой общей изменчивости набора данных. Это дисперсия наблюдаемых переменных вокруг среднего

Общая сумма квадратов (SST) рассчитывается как:

Где,

y –фактическое значение зависимой переменной.
y̅ –среднее значение зависимой переменной

SST представляет собой квадрат разницы между наблюдаемой зависимой переменной и ее средним значением.

Связь между SST, SSR и SSE

Общая изменчивость = объясненная изменчивость + необъяснимая изменчивость

Коэффициент детерминации

Коэффициент детерминации, иногда называемый R-квадратом, – это показатель того, какой процент изменчивости вашей переменной результата объясняется вашими независимыми переменными.

Он дается выражением,

Где,

SSR - Сумма квадратной регрессии
SST - Сумма квадратных сумм
SSE — сумма квадратов ошибок

Поскольку SST > SSR, R-квадрат будет находиться в диапазоне от 0 до 1. Чем ближе к 1, тем лучше модель.

Что такое хорошее значение R-Squared?

Лучшее значение R в квадрате, которое мы получаем, равно 1. Уменьшите ошибку в вашем регрессионном анализе относительно общей ошибки, тем выше значение R в квадрате.

Чтобы получить R в квадрате равным 1, нам нужно иметь SSE, т.е. SSregression быть нулем.

So,

R-квадратное значение r ‹ 0,3-Модель обычно считается очень слабым предиктором
R-значение в квадрате 0,3 ‹ r ‹ 0,5 — модель обычно считается слабым предиктором
R-квадратное значение r > 0,7 — модель обычно считается надежным предиктором

Может ли R-квадрат быть отрицательным?

Для практических целей самый низкий квадрат R, который вы можете получить, равен нулю, но только потому, что предполагается, что если ваша линия регрессии лучше, чем использование среднего значения.

Однако, если ваша линия регрессии хуже, чем при использовании среднего значения, рассчитанное вами значение r в квадрате будет отрицательным.

R-квадрат, равный 1, означает, что в вашей регрессии нет ошибок.
R-квадрат, равный 0, означает, что ваша регрессия не лучше, чем среднее значение, т. е. вы не используете
какую-либо информацию из других переменных.
R-квадрат, равный -1, означает, что ваши дела хуже, чем среднее значение.

Недостатки R-квадрата:

Значение R-квадрата будет увеличиваться по мере того, как вы вводите в регрессию дополнительные независимые переменные, независимо от того, имеют ли дополнительные независимые переменные значение для переменной результата.

Таким образом, чтобы наказать чрезмерное использование переменных, вводится новая мера, называемая скорректированным R-квадратом.

Скорректированный R-квадрат:

Скорректированное значение R-квадрата — это мера, которая включает штраф за дополнительные переменные регрессии.

Он дается выражением,

Где,

R² — значение R-квадрата
n — общее количество записей или записей.
k – общее количество независимых переменных.

Знаменатель (n - k - 1) накладывает штраф на R² за каждую дополнительную переменную.

Давайте добавим еще одну переменную высоты в качестве объясняющей переменной в регрессию.

Предположим, после добавления высоты значение R-квадрата увеличилось, но произошло уменьшение скорректированного значения R-квадрата. Тогда интерпретация будет заключаться в том, что добавление роста в качестве объясняющей переменной не поможет объяснить выходную переменную ежемесячного дохода.

Спасибо, что прочитали эту статью! Оставьте комментарий ниже, если у вас есть какие-либо вопросы. Обязательно подпишитесь на @ArunAddagatla, чтобы получать уведомления о последних статьях по науке о данных и глубокому обучению.

Вы можете связаться со мной на LinkedIn, Github, Kaggle или на сайте Medium .com.

Разложение изменчивости

Что такое дисперсия?

Объяснение изменчивости

Остаточная или необъяснимая изменчивость

Общая изменчивость

Связь между SST, SSR и SSE

Коэффициент детерминации

Вопросы по теме