Регрессионный анализ является одним из наиболее широко используемых методов анализа данных. Его широкая привлекательность и полезность являются результатом концептуально логического процесса использования уравнения для выражения взаимосвязи между интересующей переменной (откликом) и набором связанных переменных-предикторов.
1 предположения в линейной регрессии
Линейная регрессия имеет пять ключевых предположений:
- Линейная связь: для линейной регрессии требуется, чтобы связь между независимыми и зависимыми переменными была линейной.
- Данные гомоскедастичны: это означает, что дисперсия остатков (разница между реальным и прогнозируемым значением) более или менее постоянна.
- Остатки являются независимыми: это означает, что остатки распределяются случайным образом и не зависят от остатков в предыдущих наблюдениях. Если остатки не являются независимыми друг от друга, они считаются автокоррелированными.
- Остатки распределяются нормально:это предположение означает, что функция плотности вероятности остаточных значений нормально распределяется при каждом значении x.
- Мультиколлинеарность отсутствует или незначительна: две переменные коллинеарны, если обе они имеют взаимную зависимость. Из-за этого становится сложной задачей выяснить истинную связь предикторов с переменными ответа или выяснить, какая переменная на самом деле способствует прогнозированию переменной ответа.
Это приводит к увеличению стандартных ошибок. При больших стандартных ошибках доверительный интервал становится шире, что приводит к менее точным оценкам коэффициентов.
2 Фон
Основная идея регрессии заключается в том, что вы хотите смоделировать взаимосвязь между переменной результата y (также известной как зависимая переменная) и вектором независимых переменных x (она же независимая переменная). Линейная регрессия связывает y с функцией линейного предиктора x. Для заданной точки данных i линейная функция имеет вид:
Обычно есть две основные причины для использования регрессионной модели:
- Прогнозирование будущего значения y с учетом соответствующих независимых переменных.
- Количественная оценка силы взаимосвязи y с точки зрения ее независимых переменных.
Простейшая форма модели линейной регрессии приравнивает переменную результата к функции линейного предиктора (обычная линейная регрессия), добавляя член ошибки (ε) для моделирования шума, который появляется, когда подгонка модели. Член ошибки добавлен, потому что переменная y почти никогда не может быть точно определена через x, всегда есть некоторый шум или неопределенность в отношении, которое мы хотим смоделировать.
3. Смоделируйте результат как нормальное распределение
Вместо того, чтобы начинать с переменных y и x, мы начнем с описания распределения вероятностей только для y, а затем представим отношение к объясняющие переменные.
3.1 Модель постоянного среднего
Во-первых, смоделируйте y как стандартное нормальное распределение с нулевым (то есть известным) средним значением и единичной дисперсией. Обратите внимание, что это не зависит ни от каких независимых переменных:
В этой модели для y нам нечего оценивать: все нормальные параметры уже установлены (среднее значение μ = 0, дисперсия σ² = 1 ). В контексте линейной регрессии эта модель будет представлена как y = 0 + ε без зависимости от каких-либо значений x, а ε является стандартное нормальное распределение.
Теперь давайте сделаем это немного интереснее, предположив фиксированное неизвестное среднее значение и дисперсию σ², соответствующие регрессионной модели y = μ + ε:
Мы еще не моделируем взаимосвязь между y и x (скоро этим займемся). Один из способов найти эту оценку — максимизировать функцию правдоподобия.
3.2 Максимизация вероятности (1)
Учтите, что у нас есть n точки, каждая из которых нарисована независимым и одинаково распределенным (iid) образом из нормального распределения в уравнении 4. Для заданного µ, σ², вероятность утопления этих n точек определяет функцию правдоподобия, которая представляет собой просто произведение n нормальной функции плотности вероятности.
Когда у нас есть функция правдоподобия, хорошей оценкой параметров (например, μ, σ²) является просто поиск комбинации параметров, которая максимизирует эту функцию для заданных точек данных. . Здесь мы получаем оценку максимального правдоподобия для μ:
Чтобы найти фактическое значение оптимальной точки, мы можем взять частную производную уравнения 6 по μ и установить ее равной нулю:
Это точно среднее значение значений y, как и ожидалось. Несмотря на то, что мы знали ответ заранее, эта работа будет полезна, как только мы усложним ситуацию, введя объясняющие переменные.
Наконец, ожидаемое значение y — это просто ожидаемое значение нормального распределения, которое просто равно, это означает:
3.3 Моделирование независимых переменных
Теперь, когда мы поняли, что y — это случайная величина, давайте добавим несколько объясняющих переменных. Мы можем смоделировать ожидаемое значение y как линейную функцию независимых переменных p, подобно уравнению 2:
Объединив уравнение 8 с уравнением 9, среднее значение y теперь представляет собой просто эту линейную функцию. Таким образом, y — это нормальная переменная со средним значением, линейно зависящим от x, и фиксированным стандартным отклонением:
Это обозначение дает понять, что y по-прежнему является случайной нормальной переменной с ожидаемым значением, соответствующим линейной функции x.
3.4 Максимизация вероятности (2)
Чтобы получить точечные оценки для параметров β, мы снова можем использовать оценку максимального правдоподобия. Из уравнения 6 мы можем заменить линейное уравнение из уравнения 9 вместо μ и попытаться найти максимальные значения для векторов значений β:
3.5 Прогноз
Получив коэффициенты для нашей линейной регрессии из уравнения 11, мы можем предсказать новые значения. Учитывая вектор независимых переменных x, прогнозирование y представляет собой простое вычисление.