Все, что вам нужно знать о самой простой, но самой популярной регрессионной модели машинного обучения

Корреляция не является причинно-следственной связью.

— Кеннет Л. Вудворд

Первое, что вы можете прочитать в каждой книге по статистике, это то, что корреляция не является причинно-следственной связью. Тем не менее, это также первое, что многие студенты забывают, когда видят свои данные и начинают искать информацию о них. Линейная регрессия — одна из наиболее часто используемых и популярных моделей машинного обучения или статистической модели, которая предназначена для обнаружения причинно-следственных связей между набором предикторов и переменной отклика.

- Linear Regression Model Assumtions
- Checking Linear Regression Assumtions
- Ordinary Least Squares (OLS)
- OLS Estimates Properties (Bias, Consistency, Efficiency)
- Confidence Interval and Margin of Error
- Hypothesis testing
- Statistical significance testing
- Type I & Type II Errors
- Statistical tests (Student's t-test, F-test)
- Model Performance (Type I, Type II error, R-Squared, Adjusted R-Squared)
- Python Implementation

Причинно-следственная связь между переменными присутствует, когда переменная оказывает прямое влияние на другую переменную. Когда связь между двумя переменными является линейной, линейная регрессия является статистическим методом, который может помочь смоделировать влияние изменения единицы переменной, независимая переменная, значения другой переменной, зависимая переменная.

Зависимые переменные часто называют переменными ответа или объясняемыми переменными, тогда как независимыми переменные часто называют регрессорами или независимыми переменными. Когда модель линейной регрессии основана на одной независимой переменной, она называется Простая линейная регрессия, а когда модель основана на нескольких независимых переменных, она называется Множественная линейная регрессия. Простая линейная регрессия может быть описана следующим выражением:

где Y — зависимая переменная, X — независимая переменная, являющаяся частью данных, β0 — неизвестная и постоянная точка пересечения, β1 — коэффициент наклона или параметр, соответствующий переменной X, которая также неизвестна и постоянна. Наконец, u – это погрешность, которую допускает модель при оценке значений Y.

Основная идея линейной регрессии заключается в поиске наиболее подходящей прямой линии, линии регрессии, с помощью набора парных ( X, Y ) данных. Одним из примеров применения линейной регрессии является моделирование влияния длины ласт на массу тела пингвинов, что показано ниже.

Множественная линейная регрессия с тремя независимыми переменными может быть описана следующим выражением:

Предположения модели линейной регрессии

Метод машинного обучения линейной регрессии делает следующее предположение, которое необходимо выполнить для получения надежных результатов прогнозирования:

A1: Линейность. Предположение о том, что модель является линейной по параметрам.

A2: Случайная Выборка. Допущение гласит, что все наблюдения в выборке выбираются случайным образом.

A3: Экзогенность предполагает, что независимые переменные не коррелируют с членами ошибки.

A4: гомоскедастичностьдопущение утверждает, что дисперсия всех составляющих ошибок постоянна.

A5: Отсутствие идеальной мультиколлинеарности предположение гласит, что ни одна из независимых переменных не является постоянной и между независимыми переменными нет точных линейных отношений.

Обычный метод наименьших квадратов (OLS)

Обычный метод наименьших квадратов (OLS) – это метод оценки неизвестных параметров, таких как β0 и β1, в модели линейной регрессии. Модель основана на принципе наименьших квадратов, которыйминимизирует сумму квадратов разностей между наблюдаемой зависимой переменной и ее значениями, предсказанными линейная функция независимой переменной, часто называемая подходящими значениями. Эта разница между реальными и прогнозируемыми значениями зависимой переменной Y называется остатком, и что делает МНК, так это минимизирует сумму квадратов остатков. Эта задача оптимизации приводит к следующим оценкам МНК для неизвестных параметров β0 и β1, которые также известны как коэффициентные оценки.

После оценки этих параметров модели простой линейной регрессии можно вычислить подходящие значения переменной ответа следующим образом:

Стандартная ошибка

Остатки или оценочные погрешности можно определить следующим образом:

Важно помнить о разнице между условиями ошибки и остатками. Члены ошибки никогда не наблюдаются, в то время как остатки вычисляются из данных. OLS оценивает условия ошибки для каждого наблюдения, но не фактическое значение ошибки. Таким образом, истинная дисперсия ошибок до сих пор неизвестна. Кроме того, эти оценки зависят от неопределенности выборки. Это означает, что мы никогда не сможем определить точную оценку, истинное значение этих параметров из выборочных данных в эмпирическом приложении. Однако мы можем оценить его, рассчитав выборочную остаточную дисперсию, используя остатки следующим образом.

Эта оценка дисперсии остатков выборки помогает оценить дисперсию оцениваемых параметров, которая часто выражается следующим образом:

Квадратный корень из этого члена дисперсии называется стандартной ошибкой оценки, которая является ключевым компонентом при оценке точности оценок параметров. Он используется для расчета тестовой статистики и доверительных интервалов. Стандартная ошибка может быть выражена следующим образом:

Важно помнить о разнице между условиями ошибки и остатками. Члены ошибки никогда не наблюдаются, в то время как остатки вычисляются из данных.

Свойства параметра

В предположении, что критерии OLS A1 — A5 удовлетворены, оценки OLS коэффициентов β0 и β1 являются СИНИМИ и Последовательными.

Теорема Гаусса-Маркова

Эта теорема подчеркивает свойства оценок МНК, где термин СИНИЙ означает Лучший линейный несмещенный оценщик.

Предвзятость

Смещение оценщика – это разница между его ожидаемым значением и истинным значением оцениваемого параметра, которое может быть выражено следующим образом:

Когда мы утверждаем, что оценщик несмещен, мы имеем в виду, что смещение равно нулю, что означает, что ожидаемое значение оценщика равно истинному значению параметра. , то есть:

Непредвзятость не гарантирует, что полученная оценка для любой конкретной выборки равна или близка к β. Это означает, что если неоднократно брать случайные выборки из совокупности, а затем каждый раз вычислять оценку, то среднее значение этих оценок будет равно или очень близко к β.

Эффективность

Термин Наилучший в теореме Гаусса-Маркова относится к дисперсии оценщика и называется эффективностью. У параметра может быть несколько оценщиков, но тот, у которого наименьшая дисперсия, называется эффективным.

Последовательность

Термин "согласованность" тесно связан с терминами размер выборки и конвергенция. Если оценка сходится к истинному параметру по мере того, как размер выборки становится очень большим, то говорят, что эта оценка непротиворечива, то есть:

В предположении, что критерии OLS A1 — A5 удовлетворены, оценки OLS коэффициентов β0 и β1 являются СИНИМИ и согласованными.

Теорема Гаусса-Маркова

Все эти свойства верны для оценок МНК, резюмированных в теореме Гаусса-Маркова. Другими словами, МНК-оценки имеют наименьшую дисперсию, они несмещены, линейны по параметрам и непротиворечивы. Эти свойства могут быть математически доказаны с использованием сделанных ранее предположений МНК.

Доверительные интервалы и допустимая погрешность

Доверительный интервал — это диапазон, который содержит истинный параметр генеральной совокупности с определенной заранее заданной вероятностью, называемой уровнем достоверности эксперимента, и он получается с использованием результаты выборки и погрешность.

Погрешность

Предел погрешности — это разница между результатами выборки и исходя из того, каким был бы результат, если бы кто-то использовал всю совокупность.

Уровень достоверности

Уровень достоверности описывает уровень уверенности в результатах эксперимента. Например, уровень достоверности 95% означает, что если провести один и тот же эксперимент 100 раз, то 95 из этих 100 испытаний дадут одинаковые результаты. Обратите внимание, что уровень достоверности определяется до начала эксперимента, потому что он будет влиять на то, насколько велика будет погрешность в конце эксперимента.

Доверительный интервал для оценок МНК

Как упоминалось ранее, МНК-оценки простой линейной регрессии, оценки точки пересечения β0 и коэффициента наклона β1 зависят от неопределенности выборки. Однако мы можем построить ДИдля этих параметров, которые будут содержать истинные значения этих параметров в 95% всех выборок. То есть 95% доверительный интервал для β можно интерпретировать следующим образом:

  • Доверительный интервал — это набор значений, для которых проверка гипотезы не может быть отклонена до уровня 5%.
  • Доверительный интервал с вероятностью 95% содержит истинное значение β.

95% доверительный интервал оценок МНК может быть построен следующим образом:

который основан на оценке параметра, стандартной ошибке этой оценки и значении 1,96, представляющем погрешность, соответствующую правилу отклонения 5%. Это значение определяется с помощью Таблицы нормального распределения, которая будет рассмотрена далее в этой статье. Между тем, следующий рисунок иллюстрирует идею 95% CI:

Обратите внимание, что доверительный интервал также зависит от размера выборки, учитывая, что он рассчитывается с использованием стандартной ошибки, основанной на размере выборки.

Уровень достоверности определяется до начала эксперимента, поскольку он влияет на то, насколько велика будет погрешность в конце эксперимента.

Статистическая проверка гипотез

Проверка гипотезы в статистике — это способ проверить результаты эксперимента или опроса, чтобы определить, насколько они значимы. По сути, каждый проверяет, являются ли полученные результаты действительными, выясняя вероятность того, что результаты произошли случайно. Если это письмо, то результаты ненадежны, как и эксперимент. Проверка гипотез является частью статистического вывода.

Нулевая и альтернативная гипотеза

Во-первых, вам нужно определить тезис, который вы хотите проверить, затем вам нужно сформулировать нулевую гипотезу и альтернативную гипотезу. Проверка может иметь два возможных исхода, и на основании статистических результатов вы можете либо отвергнуть высказанную гипотезу, либо принять ее. Как правило, статистики склонны помещать версию или формулировку гипотезы в категорию нулевой гипотезы, которую необходимо отклонить, тогда как приемлемая и желаемая версия формулируется в рамках альтернативной гипотезы.

Статистическая значимость

Давайте рассмотрим ранее упомянутый пример, в котором модель линейной регрессии использовалась для исследования того, влияет ли независимая переменная Длина ласт пингвина на Массу тела, зависимую переменную. . Мы можем сформулировать эту модель с помощью следующего статистического выражения:

Затем, после оценки МНК коэффициентов, мы можем сформулировать следующие нулевую и альтернативную гипотезы, чтобы проверить, оказывает ли длина флиппера статистически значимоевлияние на массу тела. :

где H0 и H1 представляют нулевую гипотезу и альтернативную гипотезу соответственно. Отказ от нулевой гипотезы будет означать, что увеличение длины плавников на одну единицу напрямую влияет на массу тела. Учитывая, что оценка параметра β1 описывает влияние независимой переменной Длина плавника на зависимую переменную Масса тела, эту гипотезу можно переформулировать следующим образом:

где H0 утверждает, что оценка параметра β1 равна 0, то есть влияние длины плавника на массу тела является статистически незначимым, тогда какH0 утверждает, что оценка параметра β1 не равна 0, предполагая, что длина плавника влияет на массу тела статистически значимо.

Ошибки типа I и типа II

При выполнении статистической проверки гипотез необходимо учитывать два концептуальных типа ошибок: ошибка типа I и ошибка типа II. Ошибка типа I возникает, когда нулевая гипотеза ошибочно отвергается, тогда как ошибка типа II возникает, когда нулевая гипотеза ошибочно не отвергается. Матрица путаницы может помочь четко визуализировать серьезность этих двух типов ошибок.

Как правило, статистики склонны помещать версию гипотезы в нулевую гипотезу, которую необходимо отвергнуть, тогда как приемлемая и желаемая версия указывается в альтернативной гипотезе.

Статистические тесты

После того как сформулированы Нулевая и Альтернативная гипотезы и определены допущения теста, следующим шагом будет определение подходящего статистического теста и расчет статистики теста. Отклонять или не отклонять значение Null можно определить, сравнив статистику теста с критическим значением. Это сравнение показывает, является ли наблюдаемая тестовая статистика более экстремальной, чем определенное критическое значение, и может иметь два возможных результата:

  • Статистика теста более экстремальна, чем критическое значение → нулевая гипотеза может быть отвергнута.
  • Статистика теста не столь экстремальна, как критическое значение → нулевая гипотеза не может быть отвергнута.

Критическое значение основано на предварительно заданном уровне значимости α (обычно выбирается равным 5%) и типе распределения вероятностей, которому следует тестовая статистика. Критическое значение делит область под этой кривой распределения вероятности на область (области) отклонения и область отсутствия отклонения. Существует множество статистических тестов, используемых для проверки различных гипотез. Примерами статистических тестов являются критерий Стьюдента, F-критерий, критерий хи-квадрат, тест эндогенности Дурбина-Хаусмана-Ву и тест гетероскедастичности Уайта. В этой статье мы рассмотрим два таких статистических теста.

Ошибка типа I возникает, когда нулевая гипотеза ошибочно отвергается, тогда как ошибка типа II возникает, когда нулевая гипотеза ошибочно не отвергается.

t-критерий Стьюдента

Одним из самых простых и популярных статистических тестов является критерий Стьюдента. который можно использовать для проверки различных гипотез, особенно при работе с гипотезой, основной задачей которой является поиск доказательств статистически значимого влияния одной переменной. Статистикатеста t-теста соответствует распределению Стьюдента и может быть определена следующим образом:

где h0 в числителе — значение, относительно которого проверяется оценка параметра. Итак, статистика t-критерия равна оценке параметра минус гипотетическое значение, деленное на стандартную ошибку оценки коэффициента. В ранее заявленной гипотезе мы хотели проверить, оказывает ли длина ласт статистически значимое влияние на массу тела или нет. Этот тест может быть выполнен с использованием t-критерия, и в этом случае h0 равно 0, поскольку оценка коэффициента наклона проверяется на значение 0.

Существует две версии t-теста: двусторонний t-критерийи односторонний t-критерий. Нужна ли вам первая или вторая версия теста, полностью зависит от гипотезы, которую вы хотите проверить.

Двустороннийилидвухсторонний t-критерийможет использоваться, когда гипотеза проверяет равное сравнение с Отношение не равно для нулевой и альтернативной гипотез, похожее на следующий пример:

Двусторонний t-критерий имеет две области отклонения, как показано на рисунке ниже:

В этой версии t-критерия Null отклоняется, если вычисленная t-статистика слишком мала или слишком велика.

Здесь статистика теста сравнивается с критическими значениями на основе размера выборки и выбранного уровня значимости. Для определения точного значения точки отсечки можно использовать двустороннюю таблицу t-распределения.

Односторонний или односторонний t-критерийможет использоваться, когда гипотеза проверяет положительное/отрицательное сравнение с отрицательным/ положительная связь при нулевой и альтернативной гипотезах, аналогичная следующим примерам:

Односторонний t-критерий имеет одну область отклонения, и, в зависимостиот стороны гипотезы, отклонение область находится либо с левой, либо с правой стороны, как показано на рисунке ниже:

В этой версии t-критерия Null отклоняется, если вычисленная t-статистика меньше/больше критического значения.

F-тест

F-критерий — еще один очень популярный статистический тест, который часто используется для проверки гипотез, проверяющих совместную статистическую значимость нескольких переменных. Это тот случай, когда вы хотите проверить, оказывают ли несколько независимых переменных статистически значимое влияние на зависимую переменную. Ниже приведен пример статистической гипотезы, которую можно проверить с помощью F-теста:

где Null утверждает, что три переменные, соответствующие этим коэффициентам, совместно статистически незначимы, а Альтернатива утверждает, что эти три переменные совместно статистически значимы. Тестовая статистика F-теста соответствует F-распределению и может быть определена следующим образом:

где SSRrestricted – это сумма квадратов остатков ограниченной модели,которая представляет собой ту же модель, исключающую из данных целевые переменные, указанные как незначимые в нулевой,неограниченная SSR представляет собой сумму квадратов остатков неограниченной модели ,которая представляет собой модель, включающую все переменные, q представляет собой количество переменных, которые совместно проверяются на незначимость при значении Null, N – размер выборки, а k – общее количество переменных в неограниченной модели. Значения SSR предоставляются рядом с оценками параметров после запуска регрессии OLS, и то же самое относится и к F-статистике. Ниже приведен пример выходных данных модели MLR, где отмечены значения SSR и F-статистики.

F-тест имеет одну область отклонения, как показано ниже:

Если рассчитанная F-статистика больше критического значения, то нуль можно отклонить, что говорит о том, что независимые переменные в совокупности являются статистически значимыми. Правило отказа может быть выражено следующим образом:

P-значения

Еще один быстрый способ определить, следует ли отклонить или поддержать нулевую гипотезу, — это использовать p-значения. Значение p — это вероятность того, что возникнет условие при нулевом значении. Другими словами, p-значение — это вероятность, при условии, что нулевая гипотеза верна, наблюдения результата, по крайней мере столь же экстремального, как и статистика теста. Чем меньше p-значение, тем сильнее свидетельство против нулевой гипотезы, предполагающее, что ее можно отвергнуть.

Интерпретация значения p зависит от выбранного уровня значимости. Чаще всего для интерпретации p-значения используются уровни значимости 1%, 5% или 10%. Таким образом, вместо использования t-теста и F-теста p-значения этих статистических тестов можно использовать для проверки тех же гипотез.

На следующем рисунке показан пример выходных данных регрессии МНК с двумя независимыми переменными. В этой таблице p-значение t-критерия, проверяющего статистическую значимость оценки параметра переменной class_size, и p-значение F-критерия, проверяющего совместную статистическую значимость Оценки параметров переменных class_size и el_pct подчеркнуты.

Значение p, соответствующее переменной class_size, равно 0,011, и при сравнении этого значения с уровнями значимости 1% или 0,01, 5% или 0,05, 10% или 0,1 можно сделать следующие выводы:

  • 0,011 > 0,01 > Нуль t-критерия не может быть отклонен при уровне значимости 1 %.
  • 0,011 ‹ 0,05 → Нулевой критерий Стьюдента может быть отклонен при уровне значимости 5 %.
  • 0,011 ‹ 0,10 → Нулевой критерий Стьюдента может быть отклонен при уровне значимости 10 %.

Таким образом, это p-значение предполагает, что коэффициент переменной class_size является статистически значимым при уровнях значимости 5% и 10%. Значение p, соответствующее F-критерию, равно 0,0000, и, поскольку 0 меньше всех трех пороговых значений; 0,01, 0,05, 0,10, можно сделать вывод, что Нуль F-критерия можно отвергнуть во всех трех случаях. Это говорит о том, что коэффициенты переменных class_size и el_pct совместно статистически значимы при уровнях значимости 1%, 5% и 10%.

Реализация Python

def runOLS(Y,X):
# OLS esyimation Y = Xb + e --> beta_hat = (X'X)^-1(X'Y)
   beta_hat = np.dot(np.linalg.inv(np.dot(np.transpose(X), X)), np.dot(np.transpose(X), Y))
# OLS prediction
   Y_hat = np.dot(X,beta_hat)
   residuals = Y-Y_hat
   RSS = np.sum(np.square(residuals))
   sigma_squared_hat = RSS/(N-2)
   TSS = np.sum(np.square(Y-np.repeat(Y.mean(),len(Y))))
   MSE = sigma_squared_hat
   RMSE = np.sqrt(MSE)
   R_squared = (TSS-RSS)/TSS
# Standard error of estimates:square root of estimate's variance
   var_beta_hat = np.linalg.inv(np.dot(np.transpose(X),X))*sigma_squared_hat
   
   SE = []
   t_stats = []
   p_values = []
   CI_s = []
   
   for i in range(len(beta)):
       #standard errors
       SE_i = np.sqrt(var_beta_hat[i,i])
       SE.append(np.round(SE_i,3))
#t-statistics
        t_stat = np.round(beta_hat[i,0]/SE_i,3)
        t_stats.append(t_stat)
#p-value of t-stat p[|t_stat| >= t-treshhold two sided] 
        p_value = t.sf(np.abs(t_stat),N-2) * 2
        p_values.append(np.round(p_value,3))
#Confidence intervals = beta_hat -+ margin_of_error
        t_critical = t.ppf(q =1-0.05/2, df = N-2)
        margin_of_error = t_critical*SE_i
        CI = [np.round(beta_hat[i,0]-margin_of_error,3), np.round(beta_hat[i,0]+margin_of_error,3)]
        CI_s.append(CI)
return(beta_hat, SE, t_stats, p_values,CI_s, 
               MSE, RMSE, R_squared)

Если вам понравилась эта статья, вот некоторые другие статьи, которые могут вам понравиться:









Опрос: как для вас выглядит идеальный курс по науке о данных?

Вы также заметили, что нам, специалистам по данным, может быть трудно просматривать несколько блогов и курсов, и даже в этом случае нет единого места, охватывающего все темы? Итак, я хотел бы создать для вас этот курс"Универсальный магазин Data Science".

Чтобы настроить этот курс для вас, я хотел бы узнать ваше мнение, чтобы понять, «Как выглядит идеальный курс по науке о данных?».

Поэтому я хотел бы попросить вас заполнить этот короткий опрос , ответив всего на несколько вопросов, и вы также будете первым, кто получит уведомление о запуске курса. Пожалуйста, также поделитесь со всеми, кому, по вашему мнению, будет интересен такой курс?

Заранее благодарю вас и очень ценю ваш вклад!

Для ссылки на опрос: нажмите здесь

Спасибо, что прочитали

Я призываю вас присоединиться к Medium сегодня, чтобы иметьполный доступ ко всему отличному заблокированному контенту, опубликованному на Medium, а также в моей ленте, где я публикую различные данные. Наука, машинное обучение и глубокое обучение.

Подпишитесь на мою страницу Medium, чтобы прочитать больше статей о различных темах, связанных с наукой о данных и анализом данных. Чтобы узнать больше о практическом применении концепций машинного обучения, математики и статистики, зайдите на мою учетную запись Github.
Я приветствую отзывы и со мной можно связаться в LinkedIn. >».

Удачного обучения!