«Краткое введение в линейную регрессию».
"Линейная регрессия — это тип алгоритма контролируемого машинного обучения".
Он используется для оценки реальных значений, таких как (стоимость продуктов, общий объем продаж и т. д.)на основе непрерывной переменной.
В линейной регрессии мы устанавливаем связь между независимыми и зависимыми переменными, подбирая наилучшую линию. Эта линия наилучшего соответствия известна как линия регрессии и представлена линейным уравнением. .
В этом уравнении.
Y=зависимая переменная(означает целевое значение/прогнозируемое значение),m=наклон(означает параметр модели/градиент/вес),x=независимая переменная (означает особенность/ввод),b=Intercept(означает параметр модели/смещения).
Линейная регрессия в основном двух типов.
- Простая линейная регрессия. В простой линейной регрессии мы пытаемся найти взаимосвязь между одной независимой переменной (вход) и соответствующей зависимой переменной (выход).
- Множественная линейная регрессия.В множественной линейной регрессии мы пытаемся найти взаимосвязь между двумя или более независимыми переменными (входными данными) и соответствующей зависимой переменной (выходными данными). Предположим, у нас есть набор входных признаков X. ={x1,x2,x3,….,xn} и связанные с ним веса m={m1,m2,m3,….mn}. Тогда уравнение.
Y=(x1*m1+x2*m2+x3*m3+….+xn*mn)+b
Независимая переменная может быть непрерывной или категориальной.
«Исходя из предположения о линейной регрессии»
Линейная связь:для линейной регрессии требуется, чтобы связь между независимыми и зависимыми переменными была линейной. Также важно проверять наличие выбросов, поскольку линейная регрессия чувствительна к эффектам выбросов. Предположение о линейности лучше всего проверить с помощью точечных диаграмм. В следующих двух примерах показаны два случая, когда линейность отсутствует или присутствует незначительно.
Многомерная нормальность.Линейный регрессионный анализ требует, чтобы все переменные были многомерными нормальными. Это предположение лучше всего проверить с помощью гистограммы или Q-Q-Plot. Нормальность можно проверить с помощью критерия согласия, например, критерия Колмогорова-Смирнова. Когда данные не распределяются нормально, нелинейное преобразование (например, логарифмическое преобразование) может решить эту проблему.
Незначительная мультиколлинеарность: линейная регрессия предполагает, что мультиколлинеарность в данных незначительна или отсутствует. Мультиколлинеарность возникает, когда независимые переменные слишком сильно коррелируют друг с другом.
Отсутствие автокорреляции: анализ линейной регрессии требует, чтобы в данных была небольшая автокорреляция или она отсутствовала. Автокорреляция возникает, когда остатки не являются независимыми друг от друга. Например, это обычно происходит с ценами на акции, где цена не является независимой от предыдущей цены.
Момоскедастичность.Последнее допущение линейного регрессионного анализа — гомоскедастичность. Диаграмма рассеяния — хороший способ проверить, являются ли данные гомоскедастичными (это означает, что остатки равны по всей линии регрессии).
«В линейной регрессии независимая переменная увеличивается по оси X, а зависимая переменная — по оси Y. В этом случае мы получим положительную линию линейной регрессии (наклон будет положительным)». «и когда независимая переменная по оси x увеличивается, а другая зависимая переменная уменьшается по оси y. В этом случае мы получим отрицательную линию линейной регрессии (наклон будет отрицательным)”
Ссылки: