В этой статье я хочу изложить регрессию в максимально простых терминах, чтобы вы не запомнили ее как статистическую концепцию, а скорее как более релевантный опыт.

Регрессия - как бы причудливо это ни звучало, ее можно рассматривать как «взаимосвязь» между любыми двумя вещами. Например, представьте, что вы стоите на земле при температуре 70 ° F. Вы начинаете подниматься на холм и по мере подъема понимаете, что вам становится холоднее и температура падает. Когда вы достигнете вершины холма, который находится на высоте 500 метров над уровнем земли, и вы измеряете температуру, равную 60 ° F. Можно сделать вывод, что высота над уровнем моря влияет на температуру. Следовательно, существует зависимость между высотой и температурой. В статистике это называется «регрессом». Температура зависит от высоты и, следовательно, является «зависимой» переменной, тогда как высота - «независимой» переменной. На температуру могут влиять различные факторы, такие как влажность, давление, даже уровни загрязнения воздуха и т. Д. Все такие факторы связаны с температурой, которую можно математически записать в виде уравнения.

Формальное определение регрессии

Любое уравнение, которое является функцией зависимых переменных и набора весов, называется функцией регрессии.

y ~ f (x; w), где «y» - зависимая переменная (в приведенном выше примере, температура), «x» - независимые переменные (влажность, давление и т. д.), а «w» - веса уравнения (co -элементы x членов).

Например, уравнение может быть

y = 0.5 x1 + 2.15 x2 + 0.76 x3

где 0,5, 2,15 и 0,76 - веса уравнения. Эти веса необходимо узнать, изучив взаимосвязь между зависимыми и независимыми переменными.

Как определить уравнение регрессии?

Теперь вопрос состоит в том, чтобы выяснить, как узнать веса уравнения. Почему мы вообще это делаем? Да, мы делаем это, чтобы делать прогнозы на будущее. Как только мы узнаем взаимосвязь между зависимыми и независимыми переменными, мы можем заранее предсказать зависимую переменную. Чтобы узнать уравнение регрессии, нам нужно иметь некоторые истинные данные, собранные с поля. Мы, люди, учимся на опыте реального мира. Точно так же функция регрессии может быть изучена только при наличии исходных реальных данных, называемых «обучающими» данными.

В рассматриваемом примере нам нужно записать температуру на разных высотах, уровни давления, влажность и все известные нам факторы, которые влияют на нашу зависимую переменную. Пример набора данных будет следующим.

Как и в приведенной выше таблице, нам нужно собрать как можно больше реальных данных. Позвольте мне обозначить «температуру» как «y», а остальные параметры (высота, давление, влажность) как «x». Мы определяем функцию ошибок как сумму (y-x * w) ². то есть сумма квадратов ошибки для каждой точки данных. Нам нужно найти вектор «w», который минимизирует указанную выше функцию (логически, не вызывает ошибок). Когда функция математически минимальна? Здесь наклон уравнения равен 0. Следовательно, мы можем найти вектор «w», приравняв наклон функции ниже к 0 и решив относительно «w».

Эта статья не предназначена для того, чтобы слишком углубляться в математику, однако весовой вектор получается с помощью приведенного выше уравнения. Используя все данные, которые мы собрали, мы получаем вектор «w» по приведенному выше уравнению.

Надеюсь, эта статья была для вас полезной. Пожалуйста, оставьте свои вопросы, если таковые имеются, ниже.