В статистике линейная регрессия — это линейный подход к моделированию связи между скалярным откликом и одной или несколькими независимыми переменными (также известными как зависимые и независимые переменные).

Давайте упростим это, разбив его.

Допустим, вы хотите купить квартиру в городе, поэтому собрали данные о каких-то квартирах.

Мы видим, что первый столбец (вектор), т. е. цена, основан на характеристиках/удобствах в других столбцах. Поскольку цена зависит от других факторов, она называется зависимой переменной.

Другие столбцы (матрица, сгруппированные векторы), такие как «Площадь пола», «Комнаты», «Размер участка» и т. д., являются независимыми, и их значения не основаны на каких-либо других данных. Поэтому мы называем эти данные независимыми переменными.

Запутался в векторах, матрицах,…?? Прочтите мою статью на указанных условиях

Скаляр, вектор, матрица, тензор в линейной алгебре

Итак, мы должны знать о зависимых и независимых переменных.

Линейная регрессия – это алгоритм машинного обучения, основанный на обучении с учителем. В обучении с учителем мы предоставляем метки и значения, как в таблице. Он выполняет задачу регрессии.

Регрессия означает попытки определить взаимосвязь между одной зависимой переменной и рядом других переменных, называемых независимыми переменными. Линейная означает прямую в отличие от полиномиальной регрессии, где зависимая переменная (y) моделируется как полином n-й степени от независимой (x) переменная.

Легко, верно?
Теперь давайте демистифицируем оставшиеся узлы.

Поскольку цены зависят от характеристик квартиры, они отложены по оси Y, а все независимые переменные, влияющие на цену, отложены по оси X.

Чтобы найти наиболее подходящую линию, мы будем использовать формулу наклона, которую мы изучали в школьные годы😉

y = mx + c

🥶🥵 Что это?!!!
Давайте упростим.

y: цена, которую нужно найти
m: насколько крута линия
x: независимая переменная )
c: Перехват в точке y, когда x равен 0

Эта формула будет применяться к каждой строке в нашем наборе данных, и мы обучаем модель прогнозировать следующие новые данные. Обучающая модель просто означает обучение машины понимать структуру данных.
Как только наша модель обучена, мы можем прогнозировать цену на новых данных, предоставляя характеристики квартиры.

Данные, приведенные здесь, предназначены только для демонстрации, в реальных сценариях будут тысячи или миллионы наборов данных для прогнозирования наилучшего результата.
Линейная регрессия может использоваться в бизнесе для оценки тенденций и составления оценок или прогнозов, прогнозирования цен на акции, прогнозирования погоды и т. д.

Вот и все. Я буду писать еще один блог о части реализации.