Задайте линейную модель: y(x) = w0 + w1x
- Стандартная функция потерь/затрат/цели измеряет квадрат ошибки между y и истинным значением t.
- Одна приятная особенность линейной регрессии заключается в том, что у нее нет локального оптимума (у нее есть только один локальный оптимум, и это глобальный оптимум), поэтому проблемы отладки конвергенции возникают реже. [3]
Как мы получаем веса?
- Найдите w, который минимизирует потери l(w).
- Один простой метод: градиентный спуск.
- λ — скорость обучения.
- Примечание. По мере приближения ошибки к нулю обновляется
(wперестает изменяться).
Влияние скорости обучения λ
- Большой λ:быстрая сходимость, но большие остаточные ошибки. Также возможны колебания.
- Малый λ:медленная сходимость, но небольшая остаточная ошибка.
Оптимизация тренировочного набора
- Пакетный градиентный спуск. Суммируйте или усредните обновления для каждого примера n, затем измените значения параметров. (Возьмите среднее значение градиентов всех обучающих примеров, а затем используйте этот средний градиент для обновления наших параметров за одну эпоху). Его можно использовать для более плавных кривых.[2]
- Стохастический градиентный спуск. Обновляйте параметры для каждого тренировочного случая по очереди в соответствии с его собственными градиентами. (Рассмотрите только один пример за раз, чтобы сделать один шаг). Его можно использовать, когда набор данных большой.
- Мини-пакетный градиентный спуск. По сути, это смесь пакетного градиентного спуска и SGD. Мы используем пакет из фиксированного количества обучающих примеров, который меньше фактического набора данных, и называем его мини-пакетом. [2]
Аналитическое решение
Линейная регрессия с многомерными входными данными
Установка многочлена
Общая проблема линейной регрессии
Обозначения для линейной регрессии базисной функции можно записать как:
где Φj(x) может быть либо x для многомерной регрессии, либо одним из определенных нами нелинейных базисов.
Мы снова можем использовать метод наименьших квадратов, чтобы найти оптимальное решение.
Обобщение
Обобщение — это, по сути, способность модели предсказывать имеющиеся данные.
- Простейшие модели не охватывают все важные вариации (сигнал) данных: недостаточное соответствие.
- Более сложная модель может соответствовать обучающим данным (соответствовать не только сигналу, но и шуму в данных), особенно если данных недостаточно для ограничения модели.
- Наша модель с M = 9 соответствует данным (также моделирует шум).
- Давайте посмотрим на оценочные веса для различных M в случае меньшего количества примеров.
- Веса становятся огромными, чтобы компенсировать шум.
- Один из способов справиться с этим — поощрять малые веса (таким образом никакое входное измерение не будет слишком сильно влиять на предсказание). Это называется регуляризацией.
Регулярные наименьшие квадраты
- Техника контроля явления переобучения.
- Добавьте штрафной член к функции ошибок, чтобы препятствовать тому, чтобы коэффициенты достигали больших значений.
Соответствующие коэффициенты из подобранных полиномов, показывающие,
что регуляризация имеет желаемый эффект уменьшения величины коэффициентов.
Рекомендации
[1] В основном адаптировано из https://web.cs.hacettepe.edu.tr/~erkut/ain311.f22/slides/l4-linear_regression.pdf
[2] https://towardsdatascience.com/batch-mini-batch-stochastic-gradient-descent-7a62ecba642a
[3] CS229: линейная регрессия и градиентный спуск | Лекция 2 Эндрю Нг