Выступление доктора Эмтияза Хана в IISc

Недавно я посетил часовую презентацию доктора Эмтияза Хана, руководителя группы по приблизительному байесовскому выводу (ABI) в Центре RIKEN Center for Advanced Intelligence Project (Токио). Его доклад вращался вокруг изучения дисперсии с помощью естественных градиентов. Он систематически объяснял, почему сложно вычислить неопределенность, и как они черпали вдохновение в оптимизаторе Adam в своей последней публикации на ICML’18 (которая превосходит современные достижения). В целом, он убедительно провел нас через вариационный вывод, байесовские модели, естественные градиенты и быстрое гауссовское приближение для моделей глубокого обучения.

«Моя главная цель - понять принципы обучения на основе данных и использовать их для разработки алгоритмов, которые могут обучаться как живые существа», - доктор Хан.

Неопределенность

«Скажем, вам нужно обнаруживать животных, таких как кошки и собаки. Это очень часто, потому что доступно много изображений. Предположим, вас просят обнаружить корову из сельской Индии - количество изображений намного меньше. Следовательно, уверенность в предсказании кошек и собак больше, чем у коров », - д-р Хан.

Неопределенность помогает оценить достоверность прогнозов системы глубокого обучения. Чтобы объяснить дисперсию и почему важно знать то, чего мы не знаем, он привел простой пример данных о землетрясении в Японии. Зеленые квадраты на рисунке 2 (а) представляют точки данных. После краткого ознакомления с постановкой задачи он спросил участников, что лучше подойдет - синяя пунктирная линия или сплошная красная линия. Хотя большинство проголосовало за красную линию, его ответ застал нас врасплох - обе линии были правильными. В таком сценарии, как определить достоверность прогноза? Наблюдения показали, что дисперсия (зеленая область) увеличивается с увеличением величины. Это означает, что землетрясения с более низкой магнитудой можно предсказать с большей уверенностью, и что неопределенность возрастает с увеличением размера.

Чтобы визуализировать неопределенность, он привел пример сегментации изображения. На рис.1 представлены основные факты, прогнозы и риски нескольких городских пейзажей. Карта неопределенности отображает дисперсию сегментации. Беглый взгляд на результаты покажет, что более светлые или неопределенные области на картах неопределенности соответствуют областям, которые не были адекватно сегментированы на предсказанных картах. Мы можем получить более надежные прогнозы, если неопределенность будет зависеть от системы глубокого обучения. Что касается текущего примера, представьте себе риски, связанные с выездом беспилотного автомобиля на пешеходные дорожки (области с низкой степенью достоверности), потому что карты прогнозов не сегментированы должным образом!

  • Вычисление неопределенности помогает, если данные ненадежны, недостаточны или отсутствуют.
  • Трудно вычислить дисперсию или достоверность для массивных данных и больших моделей.
  • Используя концепции байесовской статистики, оптимизации и информационной геометрии, они работали над быстрым вычислением неопределенности.

Почему сложно вычислить неопределенность?

Если вы энтузиаст глубокого обучения, вы не новичок в наивном подходе в уравнении 1. θ генерируется из априорного распределения p (θ) (в данном случае гауссова априорного распределения). D относится к набору данных, а θ представляет параметры. Кроме того, x_i и y_i - это входные и выходные термины соответственно. Функция f - это нейронная сеть.

На рис. 2 (b) показано отклонение выигрышей от известного распределения. Мы случайным образом извлекаем f_θ (x_i), вычисляем «p» и впоследствии ранжируем данные. Серые линии показывают, что у нас может быть несколько вариантов наилучшего совпадения в прилегающей зеленой области. Если имеется множество нейронных сетей, используются для их усреднения. Насколько узок спред? Узость диапазона - это неопределенность (зеленая область).

С помощью правила Байя (уравнение 2) мы получаем апостериорное распределение. И, в свою очередь, помогает нам найти среднее значение и дисперсию апостериорного распределения. Однако трудноразрешимый интеграл представляет собой нормировочную константу, которую трудно вычислить. Из-за большого количества выборок и параметров вычисления, как упомянуто выше, являются интенсивными. Кроме того, проблема интеграции намного сложнее, чем проблема оптимизации. Помня об этой проблеме, его команда использовала естественные градиенты для быстрого приближения интегрального члена.

Вариационный вывод с градиентами

Предположите нормальное распределение N, со средним средним ( μ) и дисперсией ( σ²). Цель состоит в том, чтобы найти такие значения μ и σ², чтобы расстояние между апостериорным распределением и N было минимальным (уравнение 3). Но вот в чем загвоздка. Что, если μ и σ² - 10-мерные векторы?

Интуитивно, дивергенция KL (уравнение 4) - это средство, с помощью которого можно измерить сходство или совпадение между двумя распределениями. Используя это, мы можем выбрать нейронную сеть из многих нейронных сетей-кандидатов, основываясь на способности нейронной сети хорошо объяснять данные.

Теперь, когда мы определили KL-дивергенцию, что такое вариационный вывод? Короче говоря, вывод вариации используется для аппроксимации трудноразрешимого апостериорного распределения с управляемым вариационным распределением для дивергенции KL. Традиционно для обновления μ и σ используется метод градиентного спуска на основе фиксированного размера шага или скорости обучения (ρ). Уравнения 5,6 представляют то же самое.

Естественный градиентный спуск

К настоящему времени вы, должно быть, размышляете, значительно ли они изменили градиентный спуск. По иронии судьбы, единственный член информационной матрицы Фишера делает свое дело! Начнем с информационной матрицы Фишера, представленной уравнением 7. Его можно воспринимать как дисперсию наблюдаемой информации и использовать для вычисления ковариационных матриц, связанных с оценками максимального правдоподобия.

Зачем нам нужна информационная матрица Фишера? Вы найдете свой ответ в нескольких строках. Уравнение 8 представляет шаг обновления градиентного спуска, тогда как уравнение 9 дает естественный градиентный спуск.

Основываясь на следующем соотношении, мы можем сделать вывод, что естественные градиенты (L.H.S) являются приближением градиентов в градиентном спуске (R.H.S). Кроме того, Emtiaz et.al. предполагают, что если мы найдем правильные параметры для информационной матрицы Фишера, естественные градиенты можно будет вычислить быстро.

  • Естественные градиенты определены на многообразии, а не в евклидовом пространстве.
  • Евклидово расстояние не является подходящей мерой. Предположим, что два гауссовых распределения со средними значениями 0 и 25 соответственно. Хотя между ними, то есть между средними, существует фиксированное евклидово расстояние 25, они могут иметь разные отклонения. Если они имеют меньшую дисперсию, распределения не будут перекрываться. Однако большие отклонения могут привести к перекрытию регионов.

Вариационный вывод с естественным градиентным спуском

Вариационный вывод Natural-Gradient можно найти с помощью уравнений, приведенных ниже. Уравнения 10,11 показывают шаги обновления для среднего и дисперсии.

  • Обновления могут быть получены, когда q принадлежит экспоненциальному семейству. Этим можно обобщить такие методы, как фильтры Калмана.
  • Скорость обучения (β) масштабируется по дисперсии (синим цветом). В зависимости от неопределенности система может решить, делать ли шаги больше или меньше.

Быстрое вычисление неопределенности

«Мы аппроксимируем распределением Гаусса и находим его путем« возмущения »параметров во время обратного распространения ошибки», - д-р Хан.

На абстрактном уровне цитату, как упомянуто ранее, можно понять, если предположить, что соответствующий шум добавляется перед обратным распространением. Таким образом можно получить расхождения о разных шумах. Визуально конечная цель - получить границы инвариантности спреда (зеленая область). Этот подход аналогичен оптимизации Адама в том смысле, что начальная производительность (разброс дисперсии) относительно одинакова в обоих случаях. Вы, вероятно, ломаете голову, чтобы понять алгоритм Вадама (Вариационного Адама). Подождите секунду; есть легкий выход! Доктор Хан резюмировал Вадам в 5 простых шагов :)

Вадам (Вариационный Адам)

На этом этапе вы можете вернуться к упомянутому ранее наивному подходу и байесовскому выводу. Приближается гауссово распределение (стандартное нормальное распределение). Мы предполагаем следующее.

После этого выполняются шаги, показанные на рисунке 4. Различные модели нейронных сетей могут учитывать различные локальные или глобальные минимумы. Если вы все еще спрашиваете себя, почему Вадам так важен - это помогает нам ответить, какие другие модели мы могли бы использовать, чтобы лучше соответствовать.

Наконец, шаг градиента задается уравнением 12, а измененная часть выделяется синим цветом. Видите, насколько просто обновление?

  • Вадам сходится к той же дисперсии, что и Адам. Разница обнаруживается на этапе обучения, а не после него.
  • После получения границ неопределенности это можно перенести в постановку задачи с аналогичным распределением данных.
  • Vadam избегает использования локальных минимумов и снижает чрезмерную подгонку.
  • Замена градиентов естественными градиентами - это более быстрый и более надежный подход.

Заключение

Следующий график показывает, что Vadam имеет большую стабильность при конвергенции. Если вы внимательно посмотрите на первые 2000 итераций, станет очевидно, что в случае Vadam снижение потерь более постепенное.

Ссылки:
[1] Быстрое и масштабируемое байесовское глубокое обучение на основе изменения веса у Адама, М.Э. Хан и др., Тридцать пятая международная конференция по машинному обучению, 2018.
[2] Слайды презентации МИНК на тему Dr. Веб-сайт Хана .
[3] Быстрый, но простой естественный градиентный спуск для вариационного вывода в сложных моделях, M.E. Хан и др., ISITA 2018.

Примечание. Это резюме основано как на моих заметках, так и на исходных слайдах семинара. Ни предлагаемая работа, ни изображения не принадлежат мне. Не стесняйтесь указывать на любые исправления в случае двусмысленности :)