линейная регрессия — это линейный подход к моделированию связи между скалярным ответом и одной или несколькими независимыми переменными (также известными как зависимые и независимые переменные). Случай с одной независимой переменной называется простой линейной регрессией; если их больше одного, процесс называется множественная линейная регрессия. Этот термин отличается от многомерной линейной регрессии, где прогнозируется несколько коррелированных зависимых переменных, а не одна скалярная переменная.

Линейная регрессия имеет множество практических применений. Большинство приложений попадают в одну из следующих двух широких категорий:

  • Если целью является прогнозирование, прогнозирование или уменьшение ошибок, [требуется уточнение] линейная регрессия может быть использована для подгонки прогностической модели к наблюдаемому набору данных значений отклик и объясняющие переменные. Если после разработки такой модели собираются дополнительные значения независимых переменных без сопутствующего значения отклика, подобранная модель может использоваться для прогнозирования отклика.
  • Если цель состоит в том, чтобы объяснить изменение переменной отклика, которое может быть связано с изменением объясняющих переменных, можно применить линейный регрессионный анализ для количественной оценки силы связи между откликом и объясняющими переменными и, в частности, для определения того, являются ли некоторые независимые переменные могут вообще не иметь линейной связи с ответом или определять, какие подмножества независимых переменных могут содержать избыточную информацию об ответе.

Множество названий линейной регрессии

Когда вы начинаете изучать линейную регрессию, все может стать очень запутанным.

Причина в том, что линейная регрессия существует так долго (более 200 лет). Его изучали со всех возможных точек зрения, и часто у каждой точки зрения было новое и другое название.

Линейная регрессия — это линейная модель, например. модель, которая предполагает линейную зависимость между входными переменными (x) и единственной выходной переменной (y). Точнее говоря, у можно вычислить из линейной комбинации входных переменных (х).

При наличии одной входной переменной (x) метод называется простой линейной регрессией. При наличии нескольких входных переменных в статистической литературе метод часто называется множественной линейной регрессией.

Для подготовки или обучения уравнения линейной регрессии на основе данных можно использовать различные методы, наиболее распространенный из которых называется Обычные наименьшие квадраты. Поэтому принято называть модель, подготовленную таким образом, обычной линейной регрессией наименьших квадратов или просто регрессией наименьших квадратов.

Делать прогнозы с помощью линейной регрессии

Учитывая, что представление представляет собой линейное уравнение, делать прогнозы так же просто, как решать уравнение для определенного набора входных данных.

Давайте сделаем это конкретным на примере. Представьте, что мы прогнозируем вес (y) по росту (x). Наше представление модели линейной регрессии для этой проблемы будет следующим:

y = B0 + B1 * x1

or

вес =B0 +B1 * рост

Где B0 — коэффициент смещения, а B1 — коэффициент столбца высоты. Мы используем метод обучения, чтобы найти хороший набор значений коэффициентов. Найдя, мы можем подключить различные значения роста, чтобы предсказать вес.

Например, давайте использовать B0 = 0,1 и B1 = 0,5. Подставим их и посчитаем вес (в килограммах) для человека ростом 182 сантиметра.

вес = 0,1 + 0,5 * 182

вес = 91,1

Вы можете видеть, что приведенное выше уравнение может быть построено как линия в двух измерениях. B0 — это наша отправная точка, независимо от того, какой у нас рост. Мы можем пробежать кучу высот от 100 до 250 сантиметров, подставить их в уравнение и получить значения веса, создав нашу линию.