Мысли и теория

Глубокие нейронные сети и гауссовские процессы: сходства, различия и компромиссы

Мотивация: сравнение современного состояния

Глубокие нейронные сети (DNN) и Гауссовские процессы (GP) * - два очень выразительных класса алгоритмов контролируемого обучения. При рассмотрении применения этих методологий возникает естественный вопрос: «Когда и почему имеет смысл использовать один алгоритм вместо другого?»

В этой статье мы будем работать над разработкой руководящих принципов для принятия решения о том, какой подход использовать. Однако, чтобы начать разработку этих рекомендаций, нам сначала нужно понять, как эти подходы соотносятся друг с другом. В этой статье мы рассмотрим:

  1. Теоретические сходства и различия между терапевтами и DNN
  2. Преимущества / недостатки терапевтов по сравнению с DNN
  3. Примеры использования терапевтов и DNN

Давайте начнем!

** Подробное введение / учебник по гауссовским процессам (GP) см.

  1. Эта статья (теория)
  2. Эта статья (теория и реализация)
  3. Эта статья (реализация).

(Немного) Теоретические различия

A. Параметрические и непараметрические

Одна из осей для количественной оценки различий между этими двумя моделями - рассмотрение количества и типов параметров в каждой структуре. В целом, поскольку гауссовские процессы считаются непараметрическими методами машинного обучения, гауссовские процессы (GP) изучают значительно меньше параметров, а прогнозы в значительной степени основываются на обучающем наборе данных, на основе которого они определены. Их выбор параметров полностью выражается выбором:

  1. ядро / ковариационная функция (k (x, x ’))
  2. функция среднего (m (x))
  3. вероятностный ковариационный шум (σ²).

Эти варианты / переменные часто обозначаются как «гиперпараметры».

Отсутствие параметров в гауссовских процессах (GP) резко контрастирует со многими современными глубокими нейронными сетями (DNN), которые стремятся использовать как можно больше параметров, известных как веса, чтобы решить проблемы с машинным обучением. В классической литературе по статистическому обучению использование большого количества параметров не одобрялось из-за идеи, что это приводит к значительному переобучению и плохому обобщению данных, не находящихся в распределении. Однако эта классическая теория статистического обучения не может объяснить эмпирический успех чрезмерно параметризованных нейронных сетей и, следовательно, новую теорию режима «чрезмерно параметризованного» или «интерполяции» [ 1, 6] начинает укрепляться.

___________________________________________________________________

TL / DR # 1: GP (почти *) непараметрически, а DNN чрезмерно параметризованы.

___________________________________________________________________

* GP параметризуются только их гиперпараметрами, такими как указанные выше.

Б. Прямые и обратные методы

Что касается параметрических / непараметрических свойств, GP и DNN отличаются тем, что DNN являются обратными методами. и GP - это прямые методы.

Обратные методы включают оптимизацию параметров на основе данных обучения и поэтому также известны как методы обучения с учителем. Обычно эти методы включают параметризацию с некоторыми исходными представлениями о параметрах (известными как «предшествующие»). Эти методы часто затем используют подход сверху вниз, при котором данные используются для обновления убеждений, зафиксированных в параметрах [7].

Прямые методы основаны на использовании обучающих данных напрямую для создания новых прогнозов / получения аналитических данных, как и на большинстве машин с ядром. В частности, у машин с ядром есть изящные явления, при которых отсутствует специфика самой функции ядра, новые прогнозы полностью основываются на имеющихся имеющихся данных. Поскольку эти методы позволяют проводить детальное изучение данных и понимание без необходимости формирования твердого первоначального убеждения в отношении лежащих в основе моделей, эти методы часто называют восходящими [7].

___________________________________________________________________

TL / DR # 2: GP - это (почти *) прямые методы, а DNN - обратные методы.

___________________________________________________________________

* Оптимизация гиперпараметров для врачей общей практики - это косвенная процедура, которая обычно выполняется с использованием методов обучения на основе градиента и гессиана.

C. Различия в обучении

В отсутствие глубинных гауссовских процессов то, что изучается между GP и DNN, также варьируется. Однако методы, с помощью которых осуществляется обучение, не сильно различаются: оба используют методы первого (а в некоторых случаях и второго) порядка. Оба метода также оптимизируют различные функции: для нейронных сетей это функция потерь / риска, а для гауссовских процессов - это функция предельного правдоподобия. .

Для гауссовских процессов цель предельного правдоподобия имеет тенденцию быть более невыпуклой, и по этой причине часто для оптимизации используются алгоритмы градиентного спуска второго порядка, такие как L-BFGS [5], чтобы избежать локальных минимумов.

___________________________________________________________________

TL / DR # 3: GP обычно оптимизируются с помощью методов второго порядка, таких как L-BFGS [5], которые используют гессиан целевой функции, а DNN обычно оптимизируются с помощью методов первого порядка, таких как SGD [8], которые используют градиент целевой функции.

___________________________________________________________________

Д. Интерпретируемость

В прикладных задачах машинного обучения способность интерпретировать ваши результаты может быть так же важна, как и сами результаты.

D.I: интерпретируемость нейронных сетей

Хотя некоторые новые структуры DNN позволяют более тщательно аппроксимировать неопределенность, например с помощью алеаторической и эпистемической неопределенности [9] многие из этих сетей просто предоставляют предсказанное значение оценки и, возможно, логиты (предсказанные вероятности) для мультиклассовой классификации. Однако, поскольку общая нехватка интерпретируемости DNN была популярной темой исследований [10], я считаю, что в будущем в новые сетевые архитектуры будут включены некоторые элементы неопределенности прогнозирования.

Другие достижения, такие как инструменты визуализации градиента, такие как GradCam [12], также улучшили интерпретируемость DNN и могут помочь уменьшить их воспринимаемую «закрытость».

D.II: Интерпретируемость для врачей общей практики

И наоборот, присущая гауссовская структура GP делает их очень удобными для интерпретируемой оценки неопределенности. Для некоторых приложений, в которых необходима интуитивная оценка рисков, это может сделать этот метод более выгодным.

Кроме того, у GP есть приятное интуитивно понятное свойство, заключающееся в том, что все интерполированные средние прогнозы генерируются как взвешенные линейные комбинации существующих средних точек в обучающем наборе, масштабируемые по расстоянию (измеренному в пространстве функции ядра) от контрольная точка к заданной точке данных [11]. GP рекомбинируют точки, которые они ранее видели, линейным образом, чтобы произвести новые прогнозы.

___________________________________________________________________

TL / DR # 4: свойства линейности и Гаусса GP хорошо подходят для повышения интерпретируемости этих моделей. Хотя DNN уже давно критикуют за то, что они являются «черными ящиками», сегодня предпринимаются значительные усилия [9, 10, 12], чтобы помочь сделать эти модели более интерпретируемыми.

___________________________________________________________________

(Немного) Теоретические сходства

А. Ядро машины в «режиме интерполяции»

Недавние исследования показывают, что когда нейронные сети с линейными функциями активации приближаются к бесконечной ширине в своих скрытых слоях, они асимптотически сходятся к ядерным машинам [1, 2]. Это идея нейронного касательного ядра (NTK) [2]. Это явление происходит в так называемом «режиме интерполяции», также известном как последняя часть «кривой двойного спуска» [1].

Гауссовские процессы также являются ядерными машинами в том смысле, что линейные комбинации обучающих точек, которые определяют прогнозируемое среднее значение и дисперсии в контрольных точках, определяются функциями ядра гауссовских процессов.

___________________________________________________________________

TL / DR # 5: при определенных условиях [1, 2] DNN могут быть проанализированы как машины ядра в так называемой «интерполяции», оснащенной функцией ядра. который формирует прогнозы для наблюдаемых точек на основе взвешенных по ядру комбинаций наблюдаемых точек. GP по своей природе являются машинами с ядром [11].

___________________________________________________________________

Б. Оптимизация целевых функций

Хотя существует множество методов второго порядка, таких как BFGS и L-BFGS, для оптимизации GP, методы первого порядка также можно использовать для оптимизации этих моделей. Подобно DNN, GP по-прежнему стремятся минимизировать функционал (обычно отрицательную логарифмическую вероятность с условиями регуляризации ядра), так же как нейронные сети стремятся минимизировать функцию потерь.

___________________________________________________________________

TL / DR № 6: И DNN, и GP улучшают свои модели с помощью методов оптимизации первого и второго порядка.

___________________________________________________________________

Преимущества каждого подхода

Этот список ни в коем случае не является исчерпывающим, но вот лишь несколько преимуществ (по сравнению с другой структурой), которые следует учитывать при выборе между нейронными сетями и гауссовскими процессами:

GP преимущества / DNN недостатки:

  1. Обычно требуется меньше данных, чем для DNN, поскольку у них меньше параметров, которые необходимо настроить. Однако наличие большего количества данных, особенно при увеличивающейся плотности в фиксированной области (известная как асимптотика фиксированной области [1]), может помочь значительно повысить производительность.
  2. Только нужно оптимизировать небольшое количество (гипер) параметров.
  3. Устойчивы к таким явлениям, как взрывающиеся и исчезающие градиенты (поскольку, если вы не используете Deep GP, в этой структуре нет «слоистой структуры»).

GP недостатки / DNN преимущества:

  1. Время выполнения плохо масштабируется с количеством выборок. Сложность выполнения составляет O (n³), где n - количество выборок. Это результат необходимости выполнять инверсию матриц (или псевдообращение) больших ковариационных матриц.
  2. По сравнению с нейронными сетями автоматическое обучение меньше, и необходимо учитывать больше конструктивных решений для выбора функции ядра / ковариации, функции среднего и априорных распределений гиперпараметров. Эти параметры могут существенно повлиять на то, что GP может изучить.

Примеры использования каждой техники

Обратите внимание, что следующие предложения не являются абсолютными, то есть их цель состоит в том, чтобы применить принципы, которые мы узнали выше.

ПРИМЕЧАНИЕ. Несмотря на то, что у меня был значительный практический и теоретический опыт работы с обоими этими классами моделей, пожалуйста, не принимайте приведенные ниже рекомендации как абсолютные - все же могут быть случаи, в которых будет выгодно использовать другую модель. класс.

  1. Небольшие наборы данных → Используйте GP: рекомендуется, поскольку они требуют настройки меньшего числа гиперпараметров, а поскольку наборы данных малы, дополнительная временная сложность не будет существенно снижать общую производительность во время выполнения. .
  2. Наборы данных большиеИспользовать DNN: рекомендуется, потому что время выполнения GP плохо масштабируется с количеством примеров наборов данных, а также потому, что DNN продемонстрировали свою эффективность Современное выполнение разнообразных задач машинного обучения с использованием достаточно больших наборов данных.
  3. Выполнение непрерывной интерполяции → Использовать GP: рекомендуется, поскольку непрерывные GP измеряют расстояние с использованием непрерывных функций ядра, таких как ядра RBF и ядра Matern [11], что позволяет использовать линейный взвешивание новых точек из существующих точек с учетом всех точек в наборе данных. Требуя линейных комбинаций существующих точек, все еще можно наблюдать изысканные детали интерполяции.
  4. Выполнение дискретной интерполяции → Использовать GP: рекомендуется, поскольку дискретные / привязанные к сетке GP измеряют расстояние с использованием разреженных дискретных функций ядра, таких как ядра интерполяции сетки. Структура разреженности по-прежнему позволяет прогнозировать новые точки с учетом всех существующих точек, но делает это более эффективным с вычислительной точки зрения способом.
  5. Обучение и прогнозирование динамических наборов данных → Использование DNN: Поскольку GP являются (почти) прямыми методами, их механизмы прогнозирования в основном определяются набором данных, на котором они созданы. Следовательно, если набор данных, в котором определены GP, является динамическим, это потребует переустановки / добавления новых точек данных, что потребует повторного вычисления инверсий ковариационных матриц, что является дорогостоящей операцией. DNN, наоборот, могут легко адаптироваться к новым точкам данных, поскольку они являются инверсными моделями, а прогнозы лишь косвенно определяются данными, на которых эти модели обучаются.
  6. Другие случаи → Вы решаете:, безусловно, есть и другие случаи, не рассмотренные в приведенных выше рекомендациях. Для рассмотрения этих случаев рассмотрите возможность анализа сходств / различий / компромиссов, обсужденных выше, чтобы определить, какой из двух классов моделей будет работать лучше.

Резюме

Мы рассмотрели теоретические сходства / различия, преимущества / недостатки и приложения для гауссовских процессов (GP) и глубоких нейронных сетей (DNN). Мы обнаружили следующее:

___________________________________________________________________

  1. GP (почти) непараметрически, а DNN чрезмерно параметризованы.
  2. GP - это (почти) прямые методы, а DNN - обратные методы.
  3. GP обычно оптимизируются с помощью методов второго порядка, а DNN обычно оптимизируются с помощью методов первого порядка.
  4. Структура терапевтов обеспечивает сильную интерпретируемость этих моделей. Хотя DNN уже давно критикуют за то, что они являются «черными ящиками», современные исследования помогают этим моделям стать более интерпретируемыми.
  5. GP по своей природе являются машинами с ядром. При определенных условиях DNN также можно анализировать как машины ядра.
  6. И DNN, и GP улучшают свои модели с помощью методов оптимизации первого и второго порядка.
  7. GP обычно требует меньше данных, чем DNN, необходимо оптимизировать только небольшое количество (гипер) параметров, и они устойчивы к таким явлениям, как взрывные и исчезающие градиенты.
  8. Время выполнения GP плохо масштабируется с количеством выборок по сравнению с DNN, а автоматическое обучение меньше по сравнению с нейронными сетями.
  9. Если: (i) Наборы данных небольшие или (ii) Выполнение интерполяции → Используйте GP.
  10. Если: (i) наборы данных большие или (ii) наборы данных динамические → используйте DNN.

___________________________________________________________________

Чтобы узнать больше об обучении с подкреплением, компьютерном зрении, робототехнике и машинном обучении, подписывайтесь на меня :). Большое спасибо за чтение! Прокомментируйте ниже любые советы, приемы или правила проектирования моделей, которые вы используете в своей работе или исследованиях!

использованная литература

[1] Белкин Михаил. «Подгонка без страха: замечательные математические явления глубокого обучения через призму интерполяции». Препринт arXiv arXiv: 2105.14368 (2021).

[2] Жако, Артур, Франк Габриэль и Клеман Хонглер. «Нейронное касательное ядро: сходимость и обобщение в нейронных сетях». Препринт arXiv arXiv: 1806.07572 (2018).

[3] Дамиану, Андреас и Нил Д. Лоуренс. «Глубокие гауссовские процессы». Искусственный интеллект и статистика. ПМЛР, 2013.

[4] Бломквист, Кеннет, Самуэль Каски и Маркус Хейнонен. «Глубокие сверточные гауссовские процессы». Препринт arXiv arXiv: 1810.03052 (2018).

[5] Лю Д.К., Нокедал Дж. О методе BFGS с ограниченной памятью для крупномасштабной оптимизации. Математическое программирование 45, 503–528 (1989). Https://doi.org/10.1007/BF01589116

[6] Робертс, Дэниел А., Шо Яйда и Борис Ханин. «Принципы теории глубокого обучения». Препринт arXiv arXiv: 2106.10165 (2021 г.).

[7] Нисходящие и восходящие подходы к науке о данных, https://blog.dataiku.com/top-down-vs.-bottom-up-approaches-to-data-science.

[8] Герберт Роббинс и Саттон Монро Метод стохастической аппроксимации Анналы математической статистики, Vol. 22, №3. (Сентябрь 1951 г.), стр. 400–407, DOI: 10.1214 / aoms / 1177729586.

[9] Амини, Александр, Вилко Швартинг, Ава Сулеймани и Даниэла Рус. «Глубокая доказательная регрессия». Препринт arXiv arXiv: 1910.02600 (2019).

[10] Парк, Сэнгдон и др. «Прогнозы достоверности PAC для классификаторов глубоких нейронных сетей». Препринт arXiv arXiv: 2011.00716 (2020).

[11] Расмуссен, Карл Эдвард. «Гауссовские процессы в машинном обучении». Летняя школа по машинному обучению. Шпрингер, Берлин, Гейдельберг, 2003 г.

[12] Сельвараджу, Рампрасаат Р. и др. «Grad-cam: визуальные объяснения из глубоких сетей с помощью градиентной локализации». Материалы международной конференции IEEE по компьютерному зрению. 2017 г.