Источник: Даксбергер, Эрик и др. «Байесовское глубокое обучение с редукцией Лапласа без усилий». Достижения в области нейронных систем обработки информации 34 (2021): 20089–20103.

Код: GitHub — AlexImmer/Laplace: приближения Лапласа для глубокого обучения.

*redux = возродился!

Что такое Laplace Redux?

Laplace Redux — это простой метод аппроксимации для вычисления неопределенности прогноза, выполненного с помощью модели глубокого обучения, путем аппроксимации апостериорной вероятности с использованием нормального распределения.

[Основы]: что такое приближение Лапласа?

Ссылка: 4.4-Лаплас (buffalo.edu)

Аппроксимация Лапласа — это метод аппроксимации непрерывного распределения с использованием нормального распределения.

Приближение Лапласа состоит из следующих шагов:

Рассмотрим переменную z с распределением p(z), определяемым следующим образом:

p(z) = 1/Z (f(z))

  1. Найдите моду p(z). — z_0 [в глубоком обучении это соответствует нахождению решения типичного уравнения оптимизации]
  2. Возьмем разложение Тейлора ln f(z)

Член первого порядка равен нулю, поскольку мы оцениваем минимумы.

Окончательно,

Подводя итог, мы можем аппроксимировать функцию с помощью нормального распределения, где среднее значение соответствует моде, а стандартное отклонение соответствует обратному гессиану.

Почему Laplace Redux? Почему сейчас?

Laplace Redux использует точное приближение Лапласа для аппроксимации распределения весов обученной нейронной сети с использованием модели Гаусса.

Вычисление гессиана *было* вычислительно непосильным из-за большого количества параметров. Однако теперь есть пара решателей, которые могут аппроксимировать то же самое за разумное время.

Дополнительные значения:

  1. Следует ли учитывать все параметры для апостериорного анализа? Или подмножество параметров?
  2. Аппроксимации Гессе с использованием информационной матрицы Фишера и других факторизаций: диагональная, аппроксимация кривизны с факторингом Кронекера (KFAC)

Интересно, что в статье используется настройка гиперпараметров, чтобы гарантировать, что полученная дисперсия будет удовлетворительной для вычислений неопределенности.

Легкий в использовании?

Авторы утверждают, что использовать этот метод очень просто, и разработали красивую оболочку. (Пожалуйста, оставьте комментарии, если вы пробовали пакет!)

Эксперименты:

Авторы демонстрируют высокую производительность при калибровке неопределенности как для внутренних, так и для внешних наборов данных с использованием семейства наборов данных CIFAR.

Потенциальная слабость?

  1. Приблизительно только для одного режима.