Математический анализ уравнения простой линейной регрессии в закрытой форме

Краткий обзор, чтобы укрепить свои знания в области машинного обучения

Линейная регрессия широко используется профессионалами в бизнесе, науке, технике и т. д., но не слишком много людей понимают (или заботятся) о математике под капотом. Эта статья познакомит читателей с областью математики и, надеюсь, попутно получит некоторое представление о математике.

I. Введение и постановка задачи

Линейная регрессия — это статистическая модель, которая предполагает линейную зависимость между входными данными x и выходными данными y. Цель состоит в том, чтобы наблюдать и предсказывать.

Допустим, у нас есть n наблюдений x_i, y_i, где i = 1,…,n. Мы хотим придумать линейную функцию, которая может предсказать y_i на основе x_i.

где

Каждая пара β_0 и β_1 дает разные линии, но нас интересует только лучшая линия. Что определяет «лучшую» линию? Как найти лучшие «β_0» и «β_1»?

II. Остаточная сумма квадрата

Один из способов измерить производительность линейной регрессии — найти ошибку, которую она произвела. Суммируя все различия (остатки) между прогнозируемыми и фактическими значениями, мы можем понять, что является «плохим», и исходя из этого попытаться найти лучшую модель.

Другими словами, если y_i является фактическим значением, а ŷ_i является прогнозируемым значением, то функция стоимости остаточная сумма квадратов (RSS) определяется как

Мы хотим, чтобы наш прогноз был точным, а значит, ошибка должна быть небольшой. Таким образом, цель состоит в том, чтобы найти такие β_0 и β_1, чтобы функция RSS G(β_0, β_1) была минимальной.

На самом деле существует замкнутая формула для β_0 и β_1,

Давайте узнаем, откуда взялась эта формула, и выведем ее с нуля!

III. Найдите коэффициенты

Помните, в исчислении, чтобы найти локальные/глобальные экстремумы, нам нужно найти производную и найти критические точки.

Точно так же мы можем найти критическую точку для функции стоимости G, используя частные производные. Эта критическая точка гарантированно является глобальным минимумом, поскольку G — выпуклая функция. Детали выпуклости здесь обсуждаться не будут. Однако вы можете визуализировать функцию стоимости как скейт-парк, а глобальный минимум — это место, где сила гравитации в конце концов утянет вас вниз.

Теперь вернемся к математике. Как упоминалось выше, функция стоимости G определяется следующим образом:

Частная производная от G по β_0:

Установка ∂G/∂β_0 = 0 для получения

Подставляя β_0 = ȳ− β_1·x̄ в G(β_0, β_1), мы имеем,

Точно так же дифференцирование G по β_1 дает,

Установка ∂G/∂β_0 = 0 для получения

IV. Дальнейшее обсуждение

Мы вывели формулу для двумерной линейной регрессии с помощью исчисления. Теоретически мы можем применить ту же процедуру для 3D или 4D. По мере увеличения количества измерений сложность формулы возрастает экспоненциально, поэтому вычислять формулу для более высокого измерения нецелесообразно.

Для решения этой проблемы разработаны различные методы оптимизации. Один из них называется градиентный спуск. Но это будет другая тема в другой раз!

Спасибо за чтение.