Линейная регрессия – это метод нахождения наилучшего прямолинейного соответствия заданным данным, т. е. нахождения наилучшей линейной зависимости между независимыми и зависимыми переменными.

Эта модель предназначена для нахождения линейной зависимости между входной переменной (переменными) X и одной выходной переменной y.

Простая линейная регрессия. Когда имеется только одна независимая/характеристическая переменная X, это называется простой линейной регрессией.

Множественная линейная регрессия. При наличии нескольких независимых/характеристических переменных Xi это называется множественной линейной регрессией.

  • Независимая переменная также называется переменной-предиктором.
  • Зависимые переменные также называются выходными переменными.

В рамках линейной регрессии может быть несколько линий, которые могут быть проведены из точек данных как часть точечной диаграммы, но модель регрессии может помочь определить модель, которая лучше всего соответствует линии из точек данных.

Функция стоимости:

Функция стоимости помогает определить наилучшие возможные значения для β0, β1, β2 и т. д., которые обеспечат линию наилучшего соответствия для точек данных. Нам нужно преобразовать эту проблему в задачу минимизации, где мы хотели бы минимизировать ошибку между прогнозируемым значением и фактическим значением.

Это означает, что при наличии линии регрессии по данным мы вычисляем расстояние от каждой фактической точки данных до линии регрессии (предикативные значения), возводим его в квадрат и суммируем все квадраты ошибок вместе. Это называется Остаточная сумма квадратов (RSS).

Затем мы делим эти значения RSS на общее количество точек данных, которое дает среднеквадратичную ошибку всех точек данных и называется среднеквадратической ошибкой (MSE). MSE также известна как функция стоимости, с помощью которой нам нужно определить оптимальные значения коэффициента и перехватчика, чтобы значения MSE устанавливались на минимуме.