Источник: Даксбергер, Эрик и др. «Байесовское глубокое обучение с редукцией Лапласа без усилий». Достижения в области нейронных систем обработки информации 34 (2021): 20089–20103.
Код: GitHub — AlexImmer/Laplace: приближения Лапласа для глубокого обучения.
*redux = возродился!
Что такое Laplace Redux?
Laplace Redux — это простой метод аппроксимации для вычисления неопределенности прогноза, выполненного с помощью модели глубокого обучения, путем аппроксимации апостериорной вероятности с использованием нормального распределения.
[Основы]: что такое приближение Лапласа?
Ссылка: 4.4-Лаплас (buffalo.edu)
Аппроксимация Лапласа — это метод аппроксимации непрерывного распределения с использованием нормального распределения.
Приближение Лапласа состоит из следующих шагов:
Рассмотрим переменную z с распределением p(z), определяемым следующим образом:
p(z) = 1/Z (f(z))
- Найдите моду p(z). — z_0 [в глубоком обучении это соответствует нахождению решения типичного уравнения оптимизации]
- Возьмем разложение Тейлора ln f(z)
Член первого порядка равен нулю, поскольку мы оцениваем минимумы.
Окончательно,
Подводя итог, мы можем аппроксимировать функцию с помощью нормального распределения, где среднее значение соответствует моде, а стандартное отклонение соответствует обратному гессиану.
Почему Laplace Redux? Почему сейчас?
Laplace Redux использует точное приближение Лапласа для аппроксимации распределения весов обученной нейронной сети с использованием модели Гаусса.
Вычисление гессиана *было* вычислительно непосильным из-за большого количества параметров. Однако теперь есть пара решателей, которые могут аппроксимировать то же самое за разумное время.
Дополнительные значения:
- Следует ли учитывать все параметры для апостериорного анализа? Или подмножество параметров?
- Аппроксимации Гессе с использованием информационной матрицы Фишера и других факторизаций: диагональная, аппроксимация кривизны с факторингом Кронекера (KFAC)
Интересно, что в статье используется настройка гиперпараметров, чтобы гарантировать, что полученная дисперсия будет удовлетворительной для вычислений неопределенности.
Легкий в использовании?
Авторы утверждают, что использовать этот метод очень просто, и разработали красивую оболочку. (Пожалуйста, оставьте комментарии, если вы пробовали пакет!)
Эксперименты:
Авторы демонстрируют высокую производительность при калибровке неопределенности как для внутренних, так и для внешних наборов данных с использованием семейства наборов данных CIFAR.
Потенциальная слабость?
- Приблизительно только для одного режима.