РЕГРЕССИОННЫЙ АНАЛИЗ

Регрессионный анализ — это статистический метод изучения линейных зависимостей.

Цель регрессионного анализа

Регрессионный анализ проводится для одной из двух целей.

  1. Чтобы предсказать, какие независимые переменные влияют на зависимую переменную.
  2. Чтобы оценить влияние некоторой независимой переменной на зависимую переменную.

ЛИНЕЙНАЯ РЕГРЕССИЯ

Линейная регрессия – это алгоритм машинного обучения, который используется для прогнозирования выходных (зависимых признаков) непрерывных значений на основе входных (независимых) признаков с использованием линейной функции y=b1x+b0, где b1 – наклон, b0 – точка пересечения, x – независимые переменные, а y — зависимые переменные.

Простая линейная регрессия: y=b0+b1x (одна независимая переменная)

Множественная линейная регрессия: y=b0+b1*x1+b2*x2+…….+bn*xn (больше независимых переменных) n — количество независимых признаков. x1,x2,x3 - параметры.

Отклонение (var(x)):

дисперсия представляет собой среднее квадратов отличий от среднего. Это говорит о том, как один независимый (x) разброс переменной по отношению к среднему значению.

Ковариация (Cov(x1,x2)) и корреляция(R):

Ковариация измеряет, как изменение одной переменной связано с другой переменной.

Это дает общий разброс данных (x1 и x2).

Например: если мы хотим сравнить вес человека, связанный с возрастом или ростом, мы не можем сравнить, потому что он выражается в единицах кг/год и кг/см, поэтому нам нужно разбить единицу измерения, поэтому возникает концепция под названием корреляция масштабирует единицу измерения и разбивает единицы измерения, а также дает линейную связь между двумя числовыми переменными. Теперь мы получаем, что вес-возраст равен 0,7, а вес-рост равен 0,88, поэтому мы можем сказать, что вес сильно зависит от переменной роста.

Два метода линейной регрессии, как показано ниже:

СТАТИСТИЧЕСКИЕ МОДЕЛИ (ORDINARY LEAST SQUARE) — использование теста гипотезы дает много информации о том, как параметры связаны с целью.

SCIKIT LEARN MODEL (SKLEARN) — обеспечивает точность модели.

ОБЫЧНЫЙ НАИМЕНКИЙ КВАДРАТ

Линия линейной регрессии:

y=b0+b1*x+ e

y- набор значений, принимаемых зависимой переменной/целевой переменной/переменной отклика

x- набор значений, принимаемых независимой переменной/переменной-предиктором

e - компонент случайной ошибки

Компонент случайной ошибки:

Термин ошибки, также называемый Остатком, представляет собой расстояние наблюдаемого значения от значения, предсказанного линией регрессии.

Термин ошибки = фактическое значение — прогнозируемое значение

Линия линейной регрессии, которая объясняет тенденцию в данных, является линии наилучшего соответствия. Обычный метод наименьших квадратов используется для поиска линии наилучшего соответствия в данных. Обыкновенный метод наименьших квадратов (OLS) — это неитеративный метод, который соответствует модели, в которой минимизируется сумма квадратов разностей наблюдаемых и прогнозируемых значений.

ЦЕЛЬ ОЛС

Этот метод направлен на минимизацию суммы квадратов ошибок, то есть он определяет те значения b0 и b1, при которых ошибки минимальны.

ИНТЕРПРЕТАЦИЯ КОЭФФИЦИЕНТОВ БЕТА (b0 и b1):

b1(Slope): показывает величину изменения переменной отклика на единицу изменения переменной отклика.

b0(intercept): это точка пересечения y, что означает, что когда x=0 , y равно b0.

МЕРЫ ИЗМЕНЕНИЯ:

SST: сумма квадратов разницы между наблюдением и его средним значением.

SSR: сумма квадратов разницы между прогнозируемым значением и средним значением ответа. (ОБЪЯСНЕННЫЙ ВАРИАНТ).

SSE: сумма квадратов разницы между наблюдаемой переменной отклика и ее прогнозируемым значением (НЕОБЪЯСНЕННОЕ ОТКЛОНЕНИЕ).

Rsquared: коэффициент детерминации.

ДОПУЩЕНИЯ О ЛИНЕЙНОЙ РЕГРЕССИИ

Зависимая переменная — числовая

LINEARITY: линейная зависимость между зависимыми и независимыми переменными.

МУЛЬТИКОЛЛИНЕАРНОСТЬ: между независимыми переменными нет высокой корреляции.

АВТОКОРРЕЛЯЦИЯ: должна существовать независимость наблюдения

ГОМОСЦЕДАСТИЧЕСКИЙ: термины ошибок должны быть гомоскедастическими.

НОРМАЛЬНОСТЬ. Ошибочные термины должны следовать нормальному распределению.

После выполнения всех вышеперечисленных условий постройте модель МНК.

Давайте лучше разберемся в этом примере. Я взял простой набор данных — рекламные данные:

#OLS КОД МОДЕЛИ

импортировать statsmodels.api как sm
xc=sm.add_constant(x)
ols_model=sm.OLS(y,xc)
ols=ols_model.fit()
ols.summary ()

Pvalue меньше или равно 0,05, тогда модель является значимой с целью, в противном случае нет. (Pvalue для газеты – 0,8 не имеет значения для продаж, поэтому удалите этот столбец)

Объяснимость

Средний прирост продаж благодаря телевидению (0,0458)

Продажи произойдут, если не будет рекламы: 2,939(b0) при (x1,x2,x3=0)

МАТЕМАТИЧЕСКИЕ ЗАДАЧИ OLS

ФУНКЦИЯ ПОТЕРИ/ФУНКЦИЯ СТОИМОСТИ/ФУНКЦИЯ ОШИБКИ

Функция стоимости показывает, насколько хорошо модель делает прогнозы для заданного набора параметров (m и c)

Убыток — это ошибка, возникающая между прогнозируемой стоимостью и фактической стоимостью.

ШАГ 1: ФУНКЦИЯ ОШИБКИ

ШАГ 2: Дифференцируйте по b0 и b1 и приравняйте к нулю.

ШАГ 3: Решая это уравнение, мы получаем наилучшие значения b0 и b1.

ШАГ 4: Линия наилучшего соответствия с использованием OLS.

ПОКАЗАТЕЛИ ОЦЕНКИ МОДЕЛИ

Rsquared и скорректированный Rsquared:

Rsquared — это коэффициент детерминации (R2), который дает процент изменения зависимой переменной, объясняемый независимыми переменными.

Извлекая квадратный корень из Rsquared, мы получаем корреляцию (R).

Диапазон Rsquared от 0 до 1. Около 1 является хорошей моделью.

Скорректированный Rsquared дает процент вариации, объясняемой независимыми переменными, которая фактически влияет на зависимую переменную.

Если новая добавленная переменная Rsquared не увидит, что переменная значима или не соответствует цели, значение Rsquared увеличивается, поэтому это называется статистической случайностью. Rsquared не является подходящей метрикой для оценки модели, основанной на скорректированном Rsquared, также он говорит о том, что если добавляется новая переменная, если она незначительна, значение скорректированного Rsquared уменьшается, тогда понимается, что переменная не имеет отношения к цели.

F-СТАТИСТИКА

Он используется для проверки значимости регрессионной модели. Это похоже на тест Anova.

ОПТИМИЗАЦИЯ-ГРАДИЕНТНЫЙ СПУСК

ФУНКЦИЯ ПОТЕРИ/ФУНКЦИЯ СТОИМОСТИ/ФУНКЦИЯ ОШИБКИ

Функция стоимости показывает, насколько хорошо модель делает прогнозы для заданного набора параметров (m и c)

Убыток — это ошибка, возникающая между прогнозируемой стоимостью и фактической стоимостью. наша цель состоит в том, чтобы минимизировать ошибку путем оптимизации значений m и c. Мы будем использовать среднеквадратичную ошибку, чтобы найти потери.

ФУНКЦИЯ СРЕДНЕГО КВАДРАТИКА

Три шага, чтобы найти функцию среднего квадрата.

  1. Найдите разницу между фактическим значением и прогнозируемым значением.

2. Возведите расстояние в квадрат, чтобы избежать отрицательных значений.

3. Найдите среднее квадратов для каждого заданного значения x.

СКО:

АЛГОРИТМ ГРАДИЕНТНОГО СПУСКАНИЯ

Градиентный спуск используется для получения параметров модели (наклон-m и точка пересечения-c). Градиент означает наклон, спуск означает движение вниз.

Градиентный спуск – это итеративный алгоритм оптимизации, который находит параметры ( m и c ) такими, чтобы погрешность (функция потерь) была минимальной.

Размер шага — это скорость обучения.Градиентный спуск имеет гиперпараметр, называемый скоростью обучения . Если скорость обучения высока, она не достигнет цели, она будет продолжать колебаться. Если значение слишком мало, для достижения цели потребуется много итераций. Таким образом, важно выбрать соответствующую скорость обучения.

ШАГ 1: Предположим, изначально случайные значения m и c, здесь m (наклон) = 0 и точка пересечения (c) = 0, скорость обучения = 0,0001 (маленькая), чтобы получить хорошую точность.

ШАГ 2: Частная производная функции потерь по m .

Частная производная функции потерь по c.

ШАГ 3. Обновите m и c, используя следующие уравнения

С каждым обновлением m и c мы можем повысить точность и достичь цели.

ШАГ 4: Повторяйте шаги 2 и 3, пока мы не получим идеально нулевую функцию потерь.

Надеюсь, вам понравилась эта статья о линейной регрессии с использованием модели OLS, которую вы должны знать как Data Scientist. Не стесняйтесь задавать свои ценные вопросы в разделе комментариев ниже.