Вероятностный взгляд на линейную регрессию

Регрессионный анализ является одним из наиболее широко используемых методов анализа данных. Его широкая привлекательность и полезность являются результатом концептуально логического процесса использования уравнения для выражения взаимосвязи между интересующей переменной (откликом) и набором связанных переменных-предикторов.

1 предположения в линейной регрессии

Линейная регрессия имеет пять ключевых предположений:

Линейная связь: для линейной регрессии требуется, чтобы связь между независимыми и зависимыми переменными была линейной.
Данные гомоскедастичны: это означает, что дисперсия остатков (разница между реальным и прогнозируемым значением) более или менее постоянна.
Остатки являются независимыми: это означает, что остатки распределяются случайным образом и не зависят от остатков в предыдущих наблюдениях. Если остатки не являются независимыми друг от друга, они считаются автокоррелированными.
Остатки распределяются нормально:это предположение означает, что функция плотности вероятности остаточных значений нормально распределяется при каждом значении x.
Мультиколлинеарность отсутствует или незначительна: две переменные коллинеарны, если обе они имеют взаимную зависимость. Из-за этого становится сложной задачей выяснить истинную связь предикторов с переменными ответа или выяснить, какая переменная на самом деле способствует прогнозированию переменной ответа.
Это приводит к увеличению стандартных ошибок. При больших стандартных ошибках доверительный интервал становится шире, что приводит к менее точным оценкам коэффициентов.

2 Фон

Основная идея регрессии заключается в том, что вы хотите смоделировать взаимосвязь между переменной результата y (также известной как зависимая переменная) и вектором независимых переменных x (она же независимая переменная). Линейная регрессия связывает y с функцией линейного предиктора x. Для заданной точки данных i линейная функция имеет вид:

Обычно есть две основные причины для использования регрессионной модели:

Прогнозирование будущего значения y с учетом соответствующих независимых переменных.
Количественная оценка силы взаимосвязи y с точки зрения ее независимых переменных.

Простейшая форма модели линейной регрессии приравнивает переменную результата к функции линейного предиктора (обычная линейная регрессия), добавляя член ошибки (ε) для моделирования шума, который появляется, когда подгонка модели. Член ошибки добавлен, потому что переменная y почти никогда не может быть точно определена через x, всегда есть некоторый шум или неопределенность в отношении, которое мы хотим смоделировать.

3. Смоделируйте результат как нормальное распределение

Вместо того, чтобы начинать с переменных y и x, мы начнем с описания распределения вероятностей только для y, а затем представим отношение к объясняющие переменные.

3.1 Модель постоянного среднего

Во-первых, смоделируйте y как стандартное нормальное распределение с нулевым (то есть известным) средним значением и единичной дисперсией. Обратите внимание, что это не зависит ни от каких независимых переменных:

В этой модели для y нам нечего оценивать: все нормальные параметры уже установлены (среднее значение μ = 0, дисперсия σ² = 1 ). В контексте линейной регрессии эта модель будет представлена как y = 0 + ε без зависимости от каких-либо значений x, а ε является стандартное нормальное распределение.

Теперь давайте сделаем это немного интереснее, предположив фиксированное неизвестное среднее значение и дисперсию σ², соответствующие регрессионной модели y = μ + ε:

Мы еще не моделируем взаимосвязь между y и x (скоро этим займемся). Один из способов найти эту оценку — максимизировать функцию правдоподобия.

3.2 Максимизация вероятности (1)

Учтите, что у нас есть n точки, каждая из которых нарисована независимым и одинаково распределенным (iid) образом из нормального распределения в уравнении 4. Для заданного µ, σ², вероятность утопления этих n точек определяет функцию правдоподобия, которая представляет собой просто произведение n нормальной функции плотности вероятности.

Когда у нас есть функция правдоподобия, хорошей оценкой параметров (например, μ, σ²) является просто поиск комбинации параметров, которая максимизирует эту функцию для заданных точек данных. . Здесь мы получаем оценку максимального правдоподобия для μ:

Чтобы найти фактическое значение оптимальной точки, мы можем взять частную производную уравнения 6 по μ и установить ее равной нулю:

Это точно среднее значение значений y, как и ожидалось. Несмотря на то, что мы знали ответ заранее, эта работа будет полезна, как только мы усложним ситуацию, введя объясняющие переменные.

Наконец, ожидаемое значение y — это просто ожидаемое значение нормального распределения, которое просто равно, это означает:

3.3 Моделирование независимых переменных

Теперь, когда мы поняли, что y — это случайная величина, давайте добавим несколько объясняющих переменных. Мы можем смоделировать ожидаемое значение y как линейную функцию независимых переменных p, подобно уравнению 2:

Объединив уравнение 8 с уравнением 9, среднее значение y теперь представляет собой просто эту линейную функцию. Таким образом, y — это нормальная переменная со средним значением, линейно зависящим от x, и фиксированным стандартным отклонением:

Это обозначение дает понять, что y по-прежнему является случайной нормальной переменной с ожидаемым значением, соответствующим линейной функции x.

3.4 Максимизация вероятности (2)

Чтобы получить точечные оценки для параметров β, мы снова можем использовать оценку максимального правдоподобия. Из уравнения 6 мы можем заменить линейное уравнение из уравнения 9 вместо μ и попытаться найти максимальные значения для векторов значений β:

3.5 Прогноз

Получив коэффициенты для нашей линейной регрессии из уравнения 11, мы можем предсказать новые значения. Учитывая вектор независимых переменных x, прогнозирование y представляет собой простое вычисление.