Что такое линейная регрессия? | Машинное обучение №3

Задайте линейную модель: y(x) = w0 + w1x

Стандартная функция потерь/затрат/цели измеряет квадрат ошибки между y и истинным значением t.

Одна приятная особенность линейной регрессии заключается в том, что у нее нет локального оптимума (у нее есть только один локальный оптимум, и это глобальный оптимум), поэтому проблемы отладки конвергенции возникают реже. [3]

Как мы получаем веса?

Найдите w, который минимизирует потери l(w).
Один простой метод: градиентный спуск.

λ — скорость обучения.

Примечание. По мере приближения ошибки к нулю обновляется
(wперестает изменяться).

Влияние скорости обучения λ

Большой λ:быстрая сходимость, но большие остаточные ошибки. Также возможны колебания.
Малый λ:медленная сходимость, но небольшая остаточная ошибка.

Оптимизация тренировочного набора

Пакетный градиентный спуск. Суммируйте или усредните обновления для каждого примера n, затем измените значения параметров. (Возьмите среднее значение градиентов всех обучающих примеров, а затем используйте этот средний градиент для обновления наших параметров за одну эпоху). Его можно использовать для более плавных кривых.[2]
Стохастический градиентный спуск. Обновляйте параметры для каждого тренировочного случая по очереди в соответствии с его собственными градиентами. (Рассмотрите только один пример за раз, чтобы сделать один шаг). Его можно использовать, когда набор данных большой.
Мини-пакетный градиентный спуск. По сути, это смесь пакетного градиентного спуска и SGD. Мы используем пакет из фиксированного количества обучающих примеров, который меньше фактического набора данных, и называем его мини-пакетом. [2]

Аналитическое решение

Линейная регрессия с многомерными входными данными

Установка многочлена

Общая проблема линейной регрессии

Обозначения для линейной регрессии базисной функции можно записать как:

где Φj(x) может быть либо x для многомерной регрессии, либо одним из определенных нами нелинейных базисов.

Мы снова можем использовать метод наименьших квадратов, чтобы найти оптимальное решение.

Обобщение

Обобщение — это, по сути, способность модели предсказывать имеющиеся данные.

Простейшие модели не охватывают все важные вариации (сигнал) данных: недостаточное соответствие.
Более сложная модель может соответствовать обучающим данным (соответствовать не только сигналу, но и шуму в данных), особенно если данных недостаточно для ограничения модели.

Наша модель с M = 9 соответствует данным (также моделирует шум).
Давайте посмотрим на оценочные веса для различных M в случае меньшего количества примеров.

Веса становятся огромными, чтобы компенсировать шум.
Один из способов справиться с этим — поощрять малые веса (таким образом никакое входное измерение не будет слишком сильно влиять на предсказание). Это называется регуляризацией.

Регулярные наименьшие квадраты

Техника контроля явления переобучения.
Добавьте штрафной член к функции ошибок, чтобы препятствовать тому, чтобы коэффициенты достигали больших значений.

Соответствующие коэффициенты из подобранных полиномов, показывающие,
что регуляризация имеет желаемый эффект уменьшения величины коэффициентов.