Более простое интуитивное объяснение.

Линейная регрессия - это известный алгоритм контролируемого обучения, используемый для прогнозирования выходных данных с действительными значениями. Модель линейной регрессии представляет собой линейную комбинацию характеристик входных примеров.

A note on the notation. x_{i} means x subscript i and x_{^th} means x superscript th.

Представление данных

Как обсуждалось в определении, линейная регрессия - это алгоритм обучения с учителем, поэтому он имеет набор из N помеченных примеров, представленных как:

Здесь x_ {i} представляет набор свойств, соответствующих примеру i _ {^ th}. Этот набор свойств вместе называется вектором признаков. Все примеры из i = 1,2,3,…, n имеют соответствующее действительное значение y,, которое обозначает физическую величину, такую ​​как стоимость, температура или любой другой другое непрерывное значение.

Модель

Теперь, когда у нас есть готовые примеры, мы хотим создать нашу модель f (x), которая поможет нам предсказать результат y для невидимого x.

Задача модели - предсказать реальное значение y для невидимого значения вектора признаков x. Но мы хотим найти такую ​​модель, которая бы выполняла лучшая работа по прогнозированию значений y, поэтому мы хотим найти такие значения w и b, чтобы прогнозы были как можно ближе к фактическим ответам. Очевидно, что разные значения w и b приводят к созданию разных моделей с разными возможностями. Поэтому наша задача - найти оптимальный набор значений w * и b *, который минимизирует ошибку между прогнозами, сделанными моделью f (x) и фактические результаты y для обучающей выборки.

Лучшая модель

Как обсуждалось ранее, у нас есть N примеров и модель f (x), для которой нам нужно найти оптимальные значения w и б. Давайте воспользуемся всеми этими N примерами для нахождения оптимальных значений w и b, часто называемых обучением наша модель . Нам нужно найти такие значения w и b, чтобы следующее выражение было минимальным.

Это наша целевая функция, поскольку мы собираемся ее минимизировать. У алгоритмов обучения есть функции, которые мы стараемся минимизировать или максимизировать. Эти функции называются функцией потерь или функцией стоимости. Эта конкретная форма называется функцией потерь среднеквадратичной ошибки.

Если вы наблюдаете функцию потерь:

  • Это просто вычитание вывода модели f (x_ {i}) и фактического вывода y_ {i},
  • В квадрате,
  • И, наконец, взяли средний балл.

Чтобы лучше понять это, предположим, что Джон недавно явился на экзамен с 10 математическими вопросами, и ключ для ответов был опубликован. Теперь Джон решает узнать, насколько хорошо он выступил? поэтому он сравнивает свой ответ f (x) _ {i} с соответствующим ответом y_ {i} на ключе ответа. Если разница между ответом Джона и фактическим ответом f (x) _ {i} -y_ {i} равна 0, он ответил на этот вопрос правильно. Если он ответил на все вопросы правильно, то среднее также будет 0, что соответствует лучшей производительности, подразумевая лучшую модель. Возведение ошибки в квадрат помогает подчеркнуть ошибку модели. Мы также могли взять куб или более высокую степень, но тогда было бы труднее вычислить производные. Мы беспокоимся о производных функции стоимости, поскольку установка их на ноль дает оптимальное значение w * и b * для модели.

Общие вопросы и примеры

Давайте обсудим несколько вопросов, которые озадачили меня при изучении линейной регрессии. Но прежде чем мы начнем, давайте взглянем на очень примитивный пример линейной регрессии.

Итак, Джон и его друзья решили начать изучение линейной регрессии с нуля, поэтому они начали с самостоятельного сбора примеров. Собранные ими примеры показаны ниже.

Собрав данные, Джон решает приспособить к ним модель линейной регрессии.

Это модель формы f (x) = wx + b, где w - скаляр, поскольку x, вектор признаков является одномерным. . Лучше понять эту модель, если сравнить ее с уравнением прямой y = mx + c, где m аналогичен w и от c до b. Это линейная модель.

Но можем ли мы сделать лучше? Можем ли мы придумать модель, которая будет работать лучше, чем текущая? Да мы можем. Распространенное заблуждение состоит в том, что линейная регрессия состоит только из моделей, которые являются прямыми линиями. Однако мы также можем подогнать кривые к нашим данным, преобразовав данные. Давайте преобразуем наш вектор признаков, возведя в квадрат каждое значение x_ {i}.

После преобразования нашего вектора признаков давайте попробуем подогнать модель к новому вектору признаков и на выходе y (исходный вектор признаков x равен вместо этого не рассматривается для обучения модели, его преобразование x _ {^ 2} было использовано для обучения модели).

Итак, теперь мы предсказали полиномиальную модель, которая лучше линейной, путем преобразования исходного вектора признаков x_ {i} в его квадрат. Новая модель соответствует f (x) = wx² + b.

Способность модели предсказывать лучшие результаты увеличилась за счет преобразования векторов признаков, но нам нужно знать о чрезмерной подгонке. Чрезмерная подгонка происходит, когда модель слишком хорошо предсказывает на этапе обучения, но делает ошибку при предсказании невидимых примеров. Чрезмерная подгонка не отражает реального сценария динамичности. Он не производит обобщенных моделей.

Допустим, вектор признаков R-мерен. Мы видели случай, когда R = 1, а также предсказали линейную и полиномиальную модели. Если R = 2, то в качестве модели прогнозируется самолет. Обычно линейная регрессия моделирует гиперплоскость для набора данных с R-мерным вектором признаков, x и одномерными выходными данными, y.

Гиперплоскость - это подпространство, размерность которого на единицу меньше, чем у окружающего его пространства. В случае одномерной линии точка является гиперплоскостью, в случае двухмерной области линия является гиперплоскостью, в случае трехмерного пространства плоскость - это гиперплоскость и т. д.

Срок предвзятости

Давайте обсудим полезность термина смещения. Рассмотрим уравнение прямой y = mx. В этом случае m контролирует наклон линии и может вращать линию в любом месте, но только относительно начала координат.

Предположим, вы решили использовать эту модель для решения тривиальной задачи линейной регрессии. Однако любая гипотеза, которую вы генерируете, всегда будет проходить через источник и может не быть обобщенной. Добавление члена смещения приведет к гипотезе y = mx + c, что позволит вам переместить линию в любое место на плоскости. Термин смещения помогает обобщить гипотезу.