Изучение математики линейной регрессии и ее типов:
Линейная регрессия (LR) - это статистический метод моделирования отношений между переменными, обычно известный как зависимая переменная и независимая переменная.
В машинном обучении с учителем есть два типа LR;
1- ›Простая регрессия
2- ›Множественная регрессия
В простой регрессии существуют две переменные, одна зависимая переменная и одна независимая переменная с двумя параметрами, а именно наклон и пересечение. Эти два параметра отображают взаимосвязь между двумя переменными, упомянутыми ранее.
Следующее уравнение используется для простой регрессии;
зависимая переменная = независимая переменная * наклон + точка пересечения
Объяснение:
Y представляет собой прогнозируемое значение для каждой наблюдаемой точки данных.
M и C - коэффициенты наклона или регрессии и пересечение соответственно.
Создание и обучение модели просто подразумевает, что параметры взаимосвязи между зависимыми и независимыми переменными изучены или оценены, значения коэффициентов регрессии M и точки пересечения C. И как только они будут изучены, мы можем использовать модель для прогнозирования зависимая переменная!
В множественной регрессии две или более независимых переменных используются для определения одной зависимой переменной путем изучения взаимосвязи между ними. Здесь имеется более одного наклона или коэффициента, как мы увидим позже в этой работе, и одно пересечение.
Следующее уравнение используется для множественной регрессии;
Объяснение:
Y представляет собой прогнозируемое значение для каждой наблюдаемой точки данных.
{M1, M2,…, Mn} представляют коэффициенты всех независимых переменных, а C представляет собой пересечение модели соответственно.
Теперь давайте погрузимся в практическую работу;
Ниже приводится реализация методов множественной линейной регрессии в наборе данных о ценах на дома в США с использованием Scikit-learn. Его можно скачать с https://github.com/mohitpawar473/USA-Housing-Dataset.
импортировать панд, которые помогают загрузить или загрузить наш набор данных;
Используйте эту панду для загрузки данных;
Выведем первые пять строк этого файла;
Описание набора данных, USA_Housing.csv;
Информация о наборе данных;
Это показывает, что наш набор данных состоит из 5000 записей, то есть строк, и 7 функций, то есть столбцов. И ни в одном из этих столбцов нет пустых ячеек.
Здесь наши независимые переменные: Средн. Доход с площади, средн. Площадь Дома Возраст, Сред. Площадь Кол-во комнат, ср. Площадь Количество спален, население области и адрес, но адрес не является непрерывной переменной, поэтому мы опустим ее позже. Пока Цена - зависимая переменная.
Наша модель может принимать только непрерывную переменную, поэтому Address не является типом входных данных этой модели, поэтому мы его отбрасываем.
Кроме того, давайте определим функцию, то есть X, и цель, то есть y;
Сделав это, позвольте разделить наш набор данных на обучающий набор и тестовый набор с использованием 70/30;
Давайте тогда построим нашу модель;
Поздравляю! мы успешно построили модель линейной регрессии, которая помогает нам предсказать экземпляр USA_Housing Price.
Связь между независимыми переменными (характеристиками) и зависимой переменной (целью) следующая;
Для прогнозирования будущих цен мы используем X_test для проверки правильности модели;
Оценка модели;
Визуализация данных ~ построение остаточных ошибок
Код;
График;
Наконец-то мы успешно построили модель.
Если этот эксперимент вам помог, напишите комментарий… Это поможет улучшить мое объяснение следующего алгоритма машинного обучения, который я также упрощу для будущих специалистов по анализу данных.