«Краткое введение в линейную регрессию».

"Линейная регрессия — это тип алгоритма контролируемого машинного обучения".

Он используется для оценки реальных значений, таких как (стоимость продуктов, общий объем продаж и т. д.)на основе непрерывной переменной.

В линейной регрессии мы устанавливаем связь между независимыми и зависимыми переменными, подбирая наилучшую линию. Эта линия наилучшего соответствия известна как линия регрессии и представлена ​​линейным уравнением. .

В этом уравнении.

Y=зависимая переменная(означает целевое значение/прогнозируемое значение),m=наклон(означает параметр модели/градиент/вес),x=независимая переменная (означает особенность/ввод),b=Intercept(означает параметр модели/смещения).

Линейная регрессия в основном двух типов.

  1. Простая линейная регрессия. В простой линейной регрессии мы пытаемся найти взаимосвязь между одной независимой переменной (вход) и соответствующей зависимой переменной (выход).
  2. Множественная линейная регрессия.В множественной линейной регрессии мы пытаемся найти взаимосвязь между двумя или более независимыми переменными (входными данными) и соответствующей зависимой переменной (выходными данными). Предположим, у нас есть набор входных признаков X. ={x1,x2,x3,….,xn} и связанные с ним веса m={m1,m2,m3,….mn}. Тогда уравнение.

Y=(x1*m1+x2*m2+x3*m3+….+xn*mn)+b

Независимая переменная может быть непрерывной или категориальной.

«Исходя из предположения о линейной регрессии»

Линейная связь:для линейной регрессии требуется, чтобы связь между независимыми и зависимыми переменными была линейной. Также важно проверять наличие выбросов, поскольку линейная регрессия чувствительна к эффектам выбросов. Предположение о линейности лучше всего проверить с помощью точечных диаграмм. В следующих двух примерах показаны два случая, когда линейность отсутствует или присутствует незначительно.

Многомерная нормальность.Линейный регрессионный анализ требует, чтобы все переменные были многомерными нормальными. Это предположение лучше всего проверить с помощью гистограммы или Q-Q-Plot. Нормальность можно проверить с помощью критерия согласия, например, критерия Колмогорова-Смирнова. Когда данные не распределяются нормально, нелинейное преобразование (например, логарифмическое преобразование) может решить эту проблему.

Незначительная мультиколлинеарность: линейная регрессия предполагает, что мультиколлинеарность в данных незначительна или отсутствует. Мультиколлинеарность возникает, когда независимые переменные слишком сильно коррелируют друг с другом.

Отсутствие автокорреляции: анализ линейной регрессии требует, чтобы в данных была небольшая автокорреляция или она отсутствовала. Автокорреляция возникает, когда остатки не являются независимыми друг от друга. Например, это обычно происходит с ценами на акции, где цена не является независимой от предыдущей цены.

Момоскедастичность.Последнее допущение линейного регрессионного анализа — гомоскедастичность. Диаграмма рассеяния — хороший способ проверить, являются ли данные гомоскедастичными (это означает, что остатки равны по всей линии регрессии).

«В линейной регрессии независимая переменная увеличивается по оси X, а зависимая переменная — по оси Y. В этом случае мы получим положительную линию линейной регрессии (наклон будет положительным)». «и когда независимая переменная по оси x увеличивается, а другая зависимая переменная уменьшается по оси y. В этом случае мы получим отрицательную линию линейной регрессии (наклон будет отрицательным)”

Ссылки: