Регрессия - важный подход к моделированию и анализу данных. Это форма метода прогнозного моделирования, изучающего отношения между зависимыми (целевыми) и независимыми (характеристиками) переменными. Линия точек данных подбирается таким образом, чтобы минимизировать различия между расстояниями точек данных от кривой или линии. Этот метод рассматривается как алгоритм машинного обучения, основанный на обучении с учителем. Он используется для прогнозирования временных рядов и нахождения причинно-следственной связи между переменными.

Простая линейная регрессия - это тип регрессионного анализа, в котором используется только одна функция и существует линейная связь между независимыми и зависимыми переменными. На основе заданных точек данных строится линия, которая лучше всего моделирует точки. Линия гипотезы может быть смоделирована на основе линейного уравнения:

Обучение модели означает нахождение значений 0 и 1, чтобы полученная линия наилучшим образом соответствовала заданным точкам данных. После обучения он может предсказать значение y для входного значения x.

Чтобы получить наиболее подходящую линию регрессии, модель минимизирует разницу ошибок между прогнозируемым значением и истинным значением. Эта разница называется функцией стоимости. Наиболее используемой функцией стоимости для линейной регрессии является среднеквадратичная ошибка (RMSE):

Из-за формы функции стоимости этот метод называется методом наименьших квадратов.

Чтобы выполнить обучение модели с заданной функцией стоимости, нам понадобится следующая важная концепция - градиентный спуск. Идея состоит в том, чтобы начать со случайных значений 0 и 1, а затем итеративно обновлять значения, достигая минимальных затрат. Градиентный спуск помогает нам изменить значения параметров. Об этом можно догадаться по названию метода, используются градиенты от функции стоимости. Чтобы найти эти градиенты, берутся частные производные по 0 и 1. Значения параметров следующей итерации определяются из значений текущей итерации и вычисленных градиентов:

Функция стоимости линейной регрессии является выпуклой и простой формой. Его минимальную стоимость можно найти даже аналитически, без градиентного спуска. Однако в более сложных случаях с невыпуклой функцией стоимости градиентный спуск может попасть в ловушку локальных минимумов, и выбор скорости обучения помогает избежать этого.

Мы видели концепцию простой линейной регрессии, в которой один признак x использовался для прогнозирования целевого значения y. Во многих приложениях на отклик влияет более одного фактора. Таким образом, модели множественной линейной регрессии описывают, как один ответ линейно зависит от нескольких предикторов. Этот термин был впервые использован Пирсоном в 1908 году. Модель имеет следующую форму:

Множественная регрессия основана на следующих предположениях:

  • Связь между переменными линейна. На практике это предположение выполняется редко. Однако, если кривизна во взаимосвязях очевидна, вы можете рассмотреть возможность преобразования элементов.
  • Остатки (разница между предсказанными и наблюдаемыми значениями) имеют гауссово (нормальное) распределение. Во многих случаях это предположение может быть заменено асимптотической нормальностью, обеспечиваемой центральной предельной теоремой.

Этот метод вызывает желание использовать как можно больше функций, и обычно по крайней мере некоторые из них становятся значимыми. Существует подходящий вариант регрессии - пошаговая регрессия, когда в модель добавляются (или удаляются) пошаговые функции. Затем выбирается лучший результат из всех шагов. Номер функции ограничен номером наблюдения. Вы не можете добавлять в модель бесконечные элементы. Большинство авторов рекомендуют, чтобы у вас было как минимум в 10-20 раз больше наблюдений, чем у вас есть особенности. В противном случае оценки регрессии будут вероятными, и эта модель будет иметь неверную способность предсказывать после обучения.

Важно понимать наиболее концептуальные ограничения регрессионного подхода. Он дает инструменты для обнаружения взаимосвязей между функциями и целями, но мы никогда не можем быть полностью уверены в лежащем в основе причинно-следственном механизме. Регрессионный анализ может только дать пищу для размышлений, чтобы понять причины найденных связей.