Линейная регрессия — это способ определить взаимосвязь между двумя или более переменными и использовать эти взаимосвязи для прогнозирования значений одной переменной для заданных значений других переменных. Линейная регрессия предполагает, что взаимосвязь между переменными можно смоделировать с помощью линейного уравнения или уравнения прямой. Переменная, которая используется в прогнозировании, называется независимой/объяснительной/регрессорной, тогда как прогноз, в котором прогнозируемая переменная называется зависимой/целевой/ответной переменной. Линейная регрессия предполагает, что независимые переменные линейно связаны с переменной отклика.

y = mx+c

В литературе по машинному обучению и регрессии приведенное выше уравнение используется в форме:

y = w0 + w1(x)

где w0 — точка пересечения по оси Yw1 — наклон линии, x — независимая переменная иy — переменная ответа.

Прежде чем мы углубимся в детали линейной регрессии, вы можете спросить себя, что мы рассматриваем этот алгоритм.

Разве техника не из статистики?

машинное обучение, в частности построение прогнозирующих моделей, в первую очередь связано с минимизацией ошибок модели или созданием максимально точных прогнозов за счет способности объяснять. В прикладном машинном обучении мы будем заимствовать, повторно использовать и воровать алгоритмы из самых разных областей, включая статистику, и использовать их для этих целей.

Таким образом, линейная регрессия была разработана в области статистики и изучается как модель для понимания взаимосвязи между входными и выходными числовыми переменными, но была заимствована машинным обучением. Это и статистический алгоритм, и алгоритм машинного обучения.

Различные типы моделей линейной регрессии?

  1. Простая линейная регрессия —
    с простой линейной регрессией, когда у нас есть один вход, мы можем использовать статистику для оценки коэффициентов.
    Это требует, чтобы вы вычисляли статистические свойства из таких данных, как как средства, стандартное отклонение, корреляции и ковариация. Все данные должны быть доступны для просмотра и расчета статистики.
  2. Обычные наименьшие квадраты —
    Когда у нас есть более 1 входных данных, мы можем использовать обычные наименьшие квадраты для оценки значений коэффициентов.
    Процедура обычных наименьших квадратов стремится минимизировать сумму квадратов остатков. Это означает, что при наличии линии регрессии по данным мы вычисляем расстояние от каждой точки данных до линии регрессии, возводим его в квадрат и сумму всех квадратов ошибок вместе. Это величина, которую стремятся минимизировать обычные методы наименьших квадратов.
  3. Градиентный спуск —
    Эта операция называется градиентным спуском и работает, начиная со случайных значений для каждого коэффициента. Сумма квадратов ошибок вычисляется для каждой пары входных и выходных значений. Скорость обучения используется в качестве коэффициента масштабирования, и коэффициент обновляется в направлении минимизации ошибки. Процесс повторяется до тех пор, пока не будет достигнута минимальная квадратичная ошибка суммы или дальнейшее улучшение невозможно.
    При использовании этого метода вы должны выбрать параметр скорости обучения (альфа), который определяет размер шага улучшения для каждого шага. повторение процедуры.
  4. Регуляризация —
    Существуют расширения обучения линейной модели, называемые методами регуляризации. Они направлены как на минимизацию суммы квадратов ошибок модели в обучающих данных (с использованием обычного метода наименьших квадратов), так и на уменьшение сложности модели (например, число или абсолютный размер суммы всех коэффициентов в модели). .

Два популярных примера процедур регуляризации для линейной регрессии:

  • Лассо-регрессия: обычные методы наименьших квадратов изменяются, чтобы также минимизировать абсолютную сумму коэффициентов (так называемая регуляризация L1).
  • Регрессия гребня: когда обычные методы наименьших квадратов изменяются, чтобы также минимизировать квадрат абсолютной суммы коэффициента (так называемая регуляризация L2).