Частиквентист против байесовского: линейная регрессия

Независимо от того, какие учебники по машинному обучению у вас есть, первая модель, которую они охватывают, скорее всего, будет: линейная регрессия. Это простой, интуитивно понятный и стимулирующий наш ум, чтобы глубже погрузиться в мир машинного обучения.

Линейную регрессию можно интуитивно интерпретировать как с частотной, так и с байесовской точки зрения, о чем я хотел бы рассказать в этом посте.

Линейная регрессия: определение и концепции

В линейной регрессии мы хотим отобразить наши входные данные в действительные числа:

Для этой главы доступно множество примеров. Например, учитывая количество комнат, местоположение, размер заднего двора и площадь дома, мы хотим спрогнозировать его цену.

Существует несколько типов линейной регрессии, в зависимости от их функции стоимости и члена регуляризации. Чтобы упростить задачу, я сосредоточусь только на линейной регрессии со стоимостью 2 и регуляризацией, которая в статистике называется гребневой регрессией. Задачу можно было бы записать как:

Где y hat - истинное значение, а y определяется как

Здесь y - линейная комбинация вектора признаков и весовой матрицы W. Дополнительные 1/2 здесь просто для математического удобства при взятии производной. Идея, которую мы здесь имеем, состоит в том, чтобы минимизировать целевую функцию (член квадратичной ошибки) относительно W.

Если мы проигнорируем термин регуляризации, мы получим обычную линейную регрессию (см. Ниже). И целевая функция - минимизировать линейную ошибку наименьших квадратов.

Частичный взгляд на линейную регрессию

Мы могли бы записать цель регрессии вышеуказанной модели как прогнозируемое значение плюс некоторая ошибка:

или, что то же самое, мы могли бы сказать, что ошибка:

Теперь предположим, что мы моделируем цель регрессии как гауссову случайную величину:

Здесь мы предполагаем, что прогноз модели таков:

Затем, чтобы найти оптимальное W, мы могли бы использовать оценку максимального правдоподобия (MLE). Поскольку модель является вероятностной, то есть описывающей наши данные y параметром W, мы сделаем MLE для этого:

PDF-файл Gaussian должен быть записан как:

Поскольку мы делаем максимизацию, мы могли бы игнорировать нормировочную константу правдоподобия. Таким образом, MLE можно было бы переписать как:

Как всегда, проще оптимизировать вероятность журнала:

Если мы сделаем дисперсию равной 1, то:

Это означает, что выполнение MLE с вероятностью Гаусса аналогично линейной регрессии!

Байесовский взгляд на линейную регрессию

Теперь давайте подумаем об этом с байесовской точки зрения, которая, как мы знаем, может быть сокращена как: апостериорная величина равна предшествующей вероятности, умноженной на.

Здесь мы уже знаем вероятность, мы хотим знать, как получить приор. Давайте использовать гауссовский априор для веса W:

Расширяя PDF и снова игнорируя нормирующую постоянную и делая μ0 = 0, мы имеем:

Мы можем вывести апостериор:

А затем у нас есть лог-апостериор:

Мы можем применить предположение о дисперсии, тогда мы имеем:

Лог-апостериор гауссовского правдоподобия и гауссовского априорного значения - это то же самое, что и целевая функция для регрессии хребта! Следовательно, гауссовский априор равен ℓ2 регуляризации!

Если вы хотите узнать больше, я рекомендую книгу Кевина Мерфи Машинное обучение: вероятностная перспектива, из которой я многому научился.

Спасибо за прочтение!

Если вам понравилось, подпишитесь на меня на Medium, чтобы узнать больше. Это отличное кардио для 👏 И поможет другим людям увидеть историю.

Если вы хотите и дальше получать этот тип статей, вы можете поддержать меня, став Средним подписчиком. Это стоит 5 долларов в месяц. Мне достается часть вашей абонентской платы .

Ссылка

Машинное обучение: вероятностная перспектива