Во-первых, давайте разберемся, где можно использовать регрессию. В машинном обучении мы контролируем обучение, при котором мы помечаем данные, и нам нужно найти модель, которая обучается на помеченных обучающих данных, а затем прогнозирует ответ на невидимые данные. Эта модель, используемая для обучения с учителем, может быть регрессионной.

Тренировочные / наблюдаемые данные-

Цель - найти функцию или ее приближение (Генеративная и Прогностическая модели), чтобы, когда мы предоставляем новое наблюдение X в f, мы могли предсказать результат Y.

В известной нам модели аддитивных ошибок наблюдаемые данные = истинное значение + шум, поэтому Yi = f (xi, 1;… ..; xi, p) + ϵ-i для i = 1,…., n, где ошибки ϵ-i имеют iid со средним значением 0 и не зависят от X.

Теперь давайте начнем с понимания типов регрессии -

Простая регрессия - когда у нас есть одна предсказательная / объясняющая / независимая переменная (X) и одна ответная / целевая переменная (Y).

Множественная регрессия - когда у нас много переменных-предикторов (X) и одна целевая переменная (Y).

Многомерная регрессия - когда у нас есть много переменных-предикторов (X), а также много целевых переменных (Y).

Предположения -

  1. Линейная регрессия предполагает, что E (Y / x) = β0 + β1 * x, линейно по x и β0 и β1.
  2. Линейная регрессия также предполагает, что ϵ-i из данных {yi, xi} являются iid, при этом E (ϵ-i) = 0, и var (ϵ-i) = σ², а ϵ-i также не зависят от Y и X .

Наше простое уравнение линейной регрессии, которое используется для прогнозирования Y, содержащее оценочные значения β0 и β1, выглядит следующим образом:

В линейной регрессии есть два вида ошибок:

  1. Ошибка модели, которая представляет собой отклонение наблюдаемого значения целевой переменной и неизвестного истинного значения линии регрессии, ϵ-i = Y-i - E (Y-i).
  2. Остаточная ошибка, которая представляет собой отклонение наблюдаемого значения и предполагаемой линии регрессии, e-i = Y-i - Y-ihat. Когда мы суммируем квадраты остаточных ошибок для каждых обучающих данных (i), мы получаем остаток квадратов суммы (RSS) или квадрат суммы ошибок (SSE).

RSS = SSE = Σ (Y-i - Y-ihat) ² = Σ (e-i) ² для i = 1,…, n

Оценка методом наименьших квадратов и точечная оценка

Теперь, чтобы узнать Y-ihat из уравнения линейной регрессии, нам нужны оценочные значения β0 и β1. Мы выбираем β0 и β1 так, чтобы минимизировать RSS, и они называются (обычными) оценками наименьших квадратов. Мы выбираем оценки МНК, потому что, когда ошибки ϵ-i равны iid N (0, σ²), это оценка максимального правдоподобия (MLE) для β0 и β1. Более того, они также являются лучшими линейными несмещенными оценками (СИНИЙ), где лучший означает наличие минимальной дисперсии и несмещенных средних: E (оценка параметра) = параметр.

для i = 1,…, n

Оценка σ² / дисперсия будет равна среднеквадратичной ошибке (MSE) = SSE / степени свободы. Здесь степени свободы n-2, поскольку 2 уже используются для оценки β0 и β1,

σ²-hat = MSE = SSE / n-2 = Σ (e-i) ² / n-2 для i = 1,…, n

Балльная оценка Y равна Yhat = β0hat + β1hat * x-new с использованием уравнения -1.

Вывод о β1 и β0

β1 и β0 нормально распределены, и поэтому будет (β1-β1hat) / σ ( β1).

Когда мы заменяем σ ( β1) его оценкой se ( β1), мы называем (β1-β1hat) / s ( β1) стьюдентизированным статистика.

Обе статистические данные, представленные ниже, соответствуют t-распределению с n-2 степенями свободы.

Выше приведены начальные основы прикладной статистики, я поделюсь дополнительными концепциями по аналогичным темам в Части 2 (доверительные интервалы, тесты и интервалы прогнозирования).