Рассмотрим явление, характеризуемое двумя переменными x и y.

После наблюдения за этим явлением мы избавляемся от образца набора данных.

Цель: мы хотим найти математическую формулу, связывающую x с y

Разумным началом было бы создание диаграммы разброса набора данных, чтобы получить представление о том, как y изменяется относительно x.

Диаграмма рассеяния предполагает, что связь между x и y является почти линейной, поэтому мы предполагаем:

Где a и b - константы, которые необходимо определить.

Проблема: эта формула может представлять бесконечное количество строк на основе значений a и b.

Решение: найдите значения a и b, для которых y (x) лучше всего соответствует набору данных.

Здесь в игру вступает линейная регрессия.

Линейная регрессия - это модель, используемая для установления линейной связи между независимой переменной, x в нашем случае, и зависимой переменной, которой в нашем случае является y.

Мы можем рассматривать линейную регрессию как метод оптимизации.

Метод наименьших квадратов.

Метод наименьших квадратов - это один из нескольких методов, которые можно использовать для определения значений двух параметров a и b на основе набора данных.

Идея состоит в том, чтобы вычислить значения a и b, которые соответствуют минимуму суммы квадратов ошибок.

Ошибка определяется следующим образом:

Где:

Сумма квадратов ошибок определяется как:

Где n - это количество выборок в наборе данных, в нашем случае это 4.

Мы хотим найти значения a и b, для которых функция S (a, b) минимизируется.

Экстремум (минимум или максимум) функции можно найти, задав для производной значение 0. (если функция дифференцируема в наборе чисел R).

В нашем случае функция ошибок S (a, b) является многочленом, поэтому дифференцируема в R, поэтому мы пишем:

В итоге мы получаем однородную систему уравнений.

Решение этих уравнений дает:

Где:

Используя результаты, полученные в результате нашего анализа, мы вычисляем оптимальные значения a и b:

Наконец, наша регрессионная модель выглядит так:

Почему метод наименьших квадратов?

Зачем нужно возводить ошибки в квадрат перед минимизацией функции ошибок? почему бы просто не просуммировать все ошибки?

Проблема прямого суммирования ошибок состоит в том, что ошибки могут быть как положительными, так и отрицательными. Положительные и отрицательные числа имеют тенденцию нейтрализовать друг друга.

Допустим, у нас есть ошибка e1 = 100 и еще одна ошибка e2 = -100; сумма двух ошибок (e1 + e2 = 0) предполагает, что наша модель точна на 100%, что явно не так, поскольку ошибки слишком велики.

Поэтому перед созданием функции ошибок мы должны предположить, что все ошибки положительные, поэтому определение функции ошибок как суммы ошибок не сработает.

Чтобы преобразовать отрицательное число в положительное, мы обычно берем абсолютное значение числа или просто возводим его в квадрат. Так почему бы вместо этого не взять абсолютные значения ошибок?

Этот подход может быть использован и называется методом наименьших абсолютных отклонений. Хотя мы часто используем метод наименьших квадратов в регрессионном анализе из-за сложности, связанной с дифференциацией абсолютных значений.

В качестве примера рассмотрим следующую функцию:

Эта функция явно недифференцируема по x = 0.

Использование метода наименьших квадратов просто упрощает процесс.

Вот и все, так работает линейная регрессия.