Часть 2/3 в линейной регрессии

Часть 1/3: Интуиция линейной регрессии

Часть 3/3: Реализация линейной регрессии

Классическое изображение линейной регрессии, но знаете ли вы, что математика, лежащая в его основе, ДАЖЕ интереснее. Давай раскроем это.

Прежде чем начать, вы должны понимать

Частные производные

Итоги

Готовы подобрать линейку наиболее подходящих?

Начнем с определения нескольких вещей.

  1. Учитывая N входов и выходов…

2. Мы определяем линию наилучшего соответствия как…

3. Так, чтобы наиболее подходящая линия минимизировала функцию затрат, которую мы назвали S…

Для справки, мы введем строку наилучшего соответствия в нашу функцию затрат, распределяя вычитание, в результате чего…

Чтобы минимизировать нашу функцию стоимости S, мы должны найти, где первая производная S равна 0 по отношению к a и B. Чем ближе a и B равны 0, тем меньше общая ошибка для каждой точки. Начнем сначала с частной производной от a.

Поиск

Используйте цепное правило, начиная с показателя степени, а затем с уравнения в круглых скобках. Обратите внимание: взятие производной уравнения в круглые скобки упрощает ее до -1.

Давайте возьмем -2 из суммирования и разделим оба уравнения на -2.

Давай сделаем что-нибудь наполовину умное. Разобьем суммирование на 3 части и вынесем константу B за пределы суммирования.

Мы замечаем, что суммирование от a до n просто ...

Подставив это обратно и переставив B, мы получим…

Мы почти там! Последнее, что нам нужно сделать, это решить для a, поэтому мы прибавляем na к обеим сторонам и делим на n.

Проверь это! Две суммы Y и x, разделенные на количество наблюдений, - это просто среднее значение :). Итак, после всей этой работы минимизация функции затрат S по отношению к a - это просто ...

Находка Б

Мы минимизировали функцию стоимости S относительно a. Давайте найдем последнюю часть, которая является S относительно b.

Давайте удалим -2 и разделим его на обе стороны.

Давайте распределим x для удобства просмотра.

А теперь займемся творчеством. Помните, мы уже выяснили? Подставим a (производная формула ниже) в частную производную S по отношению к B выше. Мы делаем это, чтобы получить функцию от a и B только в терминах x и Y.

Раздадим знак минус и x

Это выглядит неаккуратно, но алгебра надрывает задницу на этом фронте. Разделим сумму на две суммы.

Давайте возьмем -B из суммирования справа, чтобы мы могли выделить переменную и переставить члены, оставшиеся в суммировании.

Выделение B путем вычитания первого суммирования и деления на второе суммирование.

Вот оно! Теперь мы выделили B и a с точки зрения x и Y. Вы можете подумать про себя, вау… это выглядит ужасной формулой! Не волнуйтесь, есть более простые версии, которые можно изменить с помощью формулы - вы можете проверить их здесь.

Подводя итоги :)

Если у вас есть набор данных с одной независимой переменной, вы можете найти линию наилучшего соответствия, вычислив B

Затем заменив B на a

и, наконец, подставив B и a в строку наиболее подходящего!

Движение вперед

Итак ... как насчет наборов данных с несколькими независимыми переменными? Сможем ли мы найти для них линию, которая лучше всего подходит? Вы делаете ставку! Мы скоро обсудим множественную линейную регрессию. А пока ознакомьтесь с частью 3 серии, в которой мы сравниваем приведенные выше уравнения с линейной моделью Склирна.