Задайте линейную модель: y(x) = w0 + w1x

  • Стандартная функция потерь/затрат/цели измеряет квадрат ошибки между y и истинным значением t.

  • Одна приятная особенность линейной регрессии заключается в том, что у нее нет локального оптимума (у нее есть только один локальный оптимум, и это глобальный оптимум), поэтому проблемы отладки конвергенции возникают реже. [3]

Как мы получаем веса?

  • Найдите w, который минимизирует потери l(w).
  • Один простой метод: градиентный спуск.

  • λ — скорость обучения.

  • Примечание. По мере приближения ошибки к нулю обновляется
    (wперестает изменяться).

Влияние скорости обучения λ

  • Большой λ:быстрая сходимость, но большие остаточные ошибки. Также возможны колебания.
  • Малый λ:медленная сходимость, но небольшая остаточная ошибка.

Оптимизация тренировочного набора

  • Пакетный градиентный спуск. Суммируйте или усредните обновления для каждого примера n, затем измените значения параметров. (Возьмите среднее значение градиентов всех обучающих примеров, а затем используйте этот средний градиент для обновления наших параметров за одну эпоху). Его можно использовать для более плавных кривых.[2]
  • Стохастический градиентный спуск. Обновляйте параметры для каждого тренировочного случая по очереди в соответствии с его собственными градиентами. (Рассмотрите только один пример за раз, чтобы сделать один шаг). Его можно использовать, когда набор данных большой.
  • Мини-пакетный градиентный спуск. По сути, это смесь пакетного градиентного спуска и SGD. Мы используем пакет из фиксированного количества обучающих примеров, который меньше фактического набора данных, и называем его мини-пакетом. [2]

Аналитическое решение

Линейная регрессия с многомерными входными данными

Установка многочлена

Общая проблема линейной регрессии

Обозначения для линейной регрессии базисной функции можно записать как:

где Φj(x) может быть либо x для многомерной регрессии, либо одним из определенных нами нелинейных базисов.

Мы снова можем использовать метод наименьших квадратов, чтобы найти оптимальное решение.

Обобщение

Обобщение — это, по сути, способность модели предсказывать имеющиеся данные.

  • Простейшие модели не охватывают все важные вариации (сигнал) данных: недостаточное соответствие.
  • Более сложная модель может соответствовать обучающим данным (соответствовать не только сигналу, но и шуму в данных), особенно если данных недостаточно для ограничения модели.

  • Наша модель с M = 9 соответствует данным (также моделирует шум).
  • Давайте посмотрим на оценочные веса для различных M в случае меньшего количества примеров.

  • Веса становятся огромными, чтобы компенсировать шум.
  • Один из способов справиться с этим — поощрять малые веса (таким образом никакое входное измерение не будет слишком сильно влиять на предсказание). Это называется регуляризацией.

Регулярные наименьшие квадраты

  • Техника контроля явления переобучения.
  • Добавьте штрафной член к функции ошибок, чтобы препятствовать тому, чтобы коэффициенты достигали больших значений.

Соответствующие коэффициенты из подобранных полиномов, показывающие,
что регуляризация имеет желаемый эффект уменьшения величины коэффициентов.

Рекомендации

[1] В основном адаптировано из https://web.cs.hacettepe.edu.tr/~erkut/ain311.f22/slides/l4-linear_regression.pdf

[2] https://towardsdatascience.com/batch-mini-batch-stochastic-gradient-descent-7a62ecba642a

[3] CS229: линейная регрессия и градиентный спуск | Лекция 2 Эндрю Нг