Часть 2/3 в линейной регрессии
Часть 1/3: Интуиция линейной регрессии
Часть 3/3: Реализация линейной регрессии
Классическое изображение линейной регрессии, но знаете ли вы, что математика, лежащая в его основе, ДАЖЕ интереснее. Давай раскроем это.
Прежде чем начать, вы должны понимать
Частные производные
Итоги
Готовы подобрать линейку наиболее подходящих?
Начнем с определения нескольких вещей.
- Учитывая N входов и выходов…
2. Мы определяем линию наилучшего соответствия как…
3. Так, чтобы наиболее подходящая линия минимизировала функцию затрат, которую мы назвали S…
Для справки, мы введем строку наилучшего соответствия в нашу функцию затрат, распределяя вычитание, в результате чего…
Чтобы минимизировать нашу функцию стоимости S, мы должны найти, где первая производная S равна 0 по отношению к a и B. Чем ближе a и B равны 0, тем меньше общая ошибка для каждой точки. Начнем сначала с частной производной от a.
Поиск
Используйте цепное правило, начиная с показателя степени, а затем с уравнения в круглых скобках. Обратите внимание: взятие производной уравнения в круглые скобки упрощает ее до -1.
Давайте возьмем -2 из суммирования и разделим оба уравнения на -2.
Давай сделаем что-нибудь наполовину умное. Разобьем суммирование на 3 части и вынесем константу B за пределы суммирования.
Мы замечаем, что суммирование от a до n просто ...
Подставив это обратно и переставив B, мы получим…
Мы почти там! Последнее, что нам нужно сделать, это решить для a, поэтому мы прибавляем na к обеим сторонам и делим на n.
Проверь это! Две суммы Y и x, разделенные на количество наблюдений, - это просто среднее значение :). Итак, после всей этой работы минимизация функции затрат S по отношению к a - это просто ...
Находка Б
Мы минимизировали функцию стоимости S относительно a. Давайте найдем последнюю часть, которая является S относительно b.
Давайте удалим -2 и разделим его на обе стороны.
Давайте распределим x для удобства просмотра.
А теперь займемся творчеством. Помните, мы уже выяснили? Подставим a (производная формула ниже) в частную производную S по отношению к B выше. Мы делаем это, чтобы получить функцию от a и B только в терминах x и Y.
Раздадим знак минус и x
Это выглядит неаккуратно, но алгебра надрывает задницу на этом фронте. Разделим сумму на две суммы.
Давайте возьмем -B из суммирования справа, чтобы мы могли выделить переменную и переставить члены, оставшиеся в суммировании.
Выделение B путем вычитания первого суммирования и деления на второе суммирование.
Вот оно! Теперь мы выделили B и a с точки зрения x и Y. Вы можете подумать про себя, вау… это выглядит ужасной формулой! Не волнуйтесь, есть более простые версии, которые можно изменить с помощью формулы - вы можете проверить их здесь.
Подводя итоги :)
Если у вас есть набор данных с одной независимой переменной, вы можете найти линию наилучшего соответствия, вычислив B
Затем заменив B на a
и, наконец, подставив B и a в строку наиболее подходящего!
Движение вперед
Итак ... как насчет наборов данных с несколькими независимыми переменными? Сможем ли мы найти для них линию, которая лучше всего подходит? Вы делаете ставку! Мы скоро обсудим множественную линейную регрессию. А пока ознакомьтесь с частью 3 серии, в которой мы сравниваем приведенные выше уравнения с линейной моделью Склирна.