Изучение математики линейной регрессии и ее типов:

Линейная регрессия (LR) - это статистический метод моделирования отношений между переменными, обычно известный как зависимая переменная и независимая переменная.

В машинном обучении с учителем есть два типа LR;

1- ›Простая регрессия

2- ›Множественная регрессия

В простой регрессии существуют две переменные, одна зависимая переменная и одна независимая переменная с двумя параметрами, а именно наклон и пересечение. Эти два параметра отображают взаимосвязь между двумя переменными, упомянутыми ранее.

Следующее уравнение используется для простой регрессии;

зависимая переменная = независимая переменная * наклон + точка пересечения

Объяснение:

Y представляет собой прогнозируемое значение для каждой наблюдаемой точки данных.

M и C - коэффициенты наклона или регрессии и пересечение соответственно.

Создание и обучение модели просто подразумевает, что параметры взаимосвязи между зависимыми и независимыми переменными изучены или оценены, значения коэффициентов регрессии M и точки пересечения C. И как только они будут изучены, мы можем использовать модель для прогнозирования зависимая переменная!

В множественной регрессии две или более независимых переменных используются для определения одной зависимой переменной путем изучения взаимосвязи между ними. Здесь имеется более одного наклона или коэффициента, как мы увидим позже в этой работе, и одно пересечение.

Следующее уравнение используется для множественной регрессии;

Объяснение:

Y представляет собой прогнозируемое значение для каждой наблюдаемой точки данных.

{M1, M2,…, Mn} представляют коэффициенты всех независимых переменных, а C представляет собой пересечение модели соответственно.

Теперь давайте погрузимся в практическую работу;

Ниже приводится реализация методов множественной линейной регрессии в наборе данных о ценах на дома в США с использованием Scikit-learn. Его можно скачать с https://github.com/mohitpawar473/USA-Housing-Dataset.

импортировать панд, которые помогают загрузить или загрузить наш набор данных;

Используйте эту панду для загрузки данных;

Выведем первые пять строк этого файла;

Описание набора данных, USA_Housing.csv;

Информация о наборе данных;

Это показывает, что наш набор данных состоит из 5000 записей, то есть строк, и 7 функций, то есть столбцов. И ни в одном из этих столбцов нет пустых ячеек.

Здесь наши независимые переменные: Средн. Доход с площади, средн. Площадь Дома Возраст, Сред. Площадь Кол-во комнат, ср. Площадь Количество спален, население области и адрес, но адрес не является непрерывной переменной, поэтому мы опустим ее позже. Пока Цена - зависимая переменная.

Наша модель может принимать только непрерывную переменную, поэтому Address не является типом входных данных этой модели, поэтому мы его отбрасываем.

Кроме того, давайте определим функцию, то есть X, и цель, то есть y;

Сделав это, позвольте разделить наш набор данных на обучающий набор и тестовый набор с использованием 70/30;

Давайте тогда построим нашу модель;

Поздравляю! мы успешно построили модель линейной регрессии, которая помогает нам предсказать экземпляр USA_Housing Price.

Связь между независимыми переменными (характеристиками) и зависимой переменной (целью) следующая;

Для прогнозирования будущих цен мы используем X_test для проверки правильности модели;

Оценка модели;

Визуализация данных ~ построение остаточных ошибок

Код;

График;

Наконец-то мы успешно построили модель.

Если этот эксперимент вам помог, напишите комментарий… Это поможет улучшить мое объяснение следующего алгоритма машинного обучения, который я также упрощу для будущих специалистов по анализу данных.