Часть 1/3: Интуиция

Ссылка на часть 2/3: Математика, лежащая в основе алгоритма
Ссылка на часть 3/3: Реализация на Python с нуля

Привет, народ! Это первая часть линейной регрессии для 5-летних, которая охватывает основы линейной регрессии, которая поможет вам перейти ко второй части, которая охватывает некоторые выводы и математику, лежащую в основе линейной регрессии. Итак ... приступим!

Регрессия - это поиск взаимосвязи между зависимой функцией и одной или несколькими независимыми функциями. Теперь, когда мы говорим о линейной регрессии, мы оцениваем / находим связь между зависимым признаком и только одним независимым признаком и пытаемся выяснить, как построить линию, которая лучше всего соответствует нашим данным.

Есть несколько способов подогнать эту линию, но здесь мы рассмотрим, как работает метод обычных наименьших квадратов (OLS). В этом методе мы пытаемся оценить параметры (коэффициент & y-пересечение) по принципу наименьших квадратов: минимизируя сумму квадратов различий между наблюдаемыми зависимый объект в данном наборе данных и те, которые предсказываются линейной функцией независимого объекта.

В математических терминах мы представляем уравнение простой линейной регрессии как (в скалярной форме) -

Проще говоря, B указывает, в какую сторону указывает линия, а a, который является точкой пересечения оси Y, указывает, где линия пересекает ось Y (т. Е. какое значение y, когда x равен нулю).

Это уравнение также можно обозначить в матричной форме как

Возьмем очень общий пример:

Предположим, у нас есть один магазин мороженого, и мы регистрируем среднесуточную дневную температуру и количество продаваемого мороженого каждый день. Мы замечаем, что существует положительная линейная зависимость между температурой и продажами мороженого, то есть, когда температура повышалась, продажи также увеличивались.

Мы оцениваем параметры и находим наиболее подходящую линию, вычисляя сумму квадратов разностей между фактическим значением и прогнозируемым значением, т. Е. Мы отмечаем различия между фактическими значениями и прогнозируемыми значениями для каждой точки данных (d1, d2, d3…), возведите их в квадрат и сложите (d1² + d2² + d3² +…). Основная цель - оценить такие параметры, которые минимизируют это значение. Это функция стоимости для линейной регрессии.

Функция затрат / потерь - это то, что измеряет производительность модели машинного обучения. Он говорит нам, насколько хороша наша модель в оценке взаимосвязи между нашей независимой функцией и зависимой функцией.

Но перед использованием этого алгоритма необходимо принять во внимание некоторые предположения:

Примечание. Если какое-либо из этих предположений нарушается, это не означает, что наша модель линейной регрессии не будет работать, просто наши параметры могут быть неточными (или, можно сказать, наши прогнозы могут не буду точным).

  • Линейность - линейная регрессия предполагает, что отношения между зависимым и независимым объектами являются линейными. Это можно проверить, посмотрев на диаграмму рассеяния. Обратите внимание, что выбросы также могут влиять на линейность данных, поэтому очень важно обработать их перед анализом данных.

Глядя на диаграмму рассеяния, мы можем сказать, что данные имеют линейное распределение.

И исходя из этого графика рассеяния, мы можем сказать, что данные не подчиняются линейному распределению.

Примечание. Если данные не распределены линейно, можно использовать другие нелинейные средства оценки, такие как полиномиальная регрессия, которые также могут соответствовать линии на кривых данных!

  • Независимые остатки - после подбора модели остаточные ошибки (фактическое значение - прогнозируемое значение) должны быть независимыми, т. е. не должно быть корреляции между последовательными остатками. Эта концепция также известна как автокорреляция. Это относится к степени корреляции между значениями одних и тех же переменных. Мы можем обнаружить автокорреляцию с помощью графика остатков (Независимая переменная против остатков).

Из этого графика можно сказать, что остатки независимы и распределены случайным образом.

Глядя на кривую, мы можем сказать, что остатки не независимы друг от друга и не распределены случайным образом.

Автокорреляцию также можно обнаружить с помощью теста Дарбина-Ватсона, значение которого находится в диапазоне от 0 до 4.
Значения, близкие к 2 = ›Меньше автокорреляции
Значения, близкие к 0 или 4 =› High + ve / High -ve автокорреляция

  • Гомоскедастичность - гетероскедастичность (противоположность гомоскедастичности) возникает, когда дисперсия Y при заданном X (V (Y | X)) непостоянна. Это графики зависимости остаточных значений от подобранных значений для гомоскедастических и гетероскедастических данных.

На втором графике мы видим, что остатки напоминают форму воронки, которая нежелательна в линейной регрессии. Чтобы справиться с этой ситуацией, мы можем взять журнал зависимой переменной, который часто помогает в подобных ситуациях.

  • Нормальность (необязательно) - OLS не требует, чтобы термин ошибки соответствовал нормальному распределению для получения несмещенных оценок. Однако, если член ошибки следует нормальному распределению, мы можем выполнить статистическую проверку гипотез и сгенерировать надежные доверительные интервалы. Мы можем проверить нормальность с помощью графиков Q-Q (график квантиля-квантиля)

  • Мультиколлинеарность - мы должны принимать во внимание это предположение, когда имеем дело с несколькими независимыми функциями. Идеальная корреляция возникает, когда две функции имеют коэффициент корреляции Пирсона, равный +1 или -1. Метод обыкновенных наименьших квадратов не может отличить одну переменную от другой, если они полностью коррелированы. Значит, такие особенности следует убрать с модели.

Резюме

Подводя итог, мы рассмотрели, что такое линейная регрессия, математическое уравнение линейной регрессии, функция стоимости и различные допущения линейной регрессии. Не забудьте заглянуть в следующую часть серии.