Как работают графические нейронные сети?

Графические нейронные сети (ГНС) стали интересным приложением для решения множества задач. Наиболее ярко выражены в области химии и молекулярной биологии. Примером влияния в этой области является DeepChem, питоническая библиотека, использующая GNN. Но как именно они работают?

Что такое GNN?

Типичные приложения машинного обучения предварительно обрабатывают графические представления в вектор реальных значений, который, в свою очередь, теряет информацию о структуре графа. GNN - это комбинация механизма распространения информации и нейронных сетей, представляющая набор функций перехода и набор функций вывода. Механизм распространения информации определяется узлами, которые обновляют свои состояния и обмениваются информацией, передавая «сообщения» своим соседним узлам, пока они не достигнут стабильного равновесия. Процесс включает в себя сначала функцию перехода, которая принимает в качестве входных данных характеристики каждого узла, характеристики края каждого узла, состояние соседних узлов и характеристики соседних узлов и выводит новое состояние узлов. Исходная GNN, сформулированная Скарселли и др. 2009 [1] использовал дискретные элементы и назвал элементы ребер и узлов «метками». Затем процесс включает функцию вывода, которая принимает в качестве входных данных обновленные состояния узлов и характеристики узлов, производящие вывод для каждого узла.

И локализованный переход, и функция вывода - это параметрические дифференциальные функции, которые обучаются. Чтобы найти единственное решение, авторы [1] использовали теорему Банаха о неподвижной точке и итерационный метод Якоби для экспоненциально быстрого вычисления состояния узла.

Теорема Банаха о неподвижной точке и метод Якоби

Эта теорема Банаха о неподвижной точке (BFP) утверждает, что существует единственное решение системы уравнений, и предоставляет метод для вычисления этих неподвижных точек. Если вы предполагаете метрическое пространство X, то отображение T: X → X называется отображением сокращения на X, в котором T допускает уникальную фиксированную точку x * в X (например, T (x *) = x *). Предполагается, что функция перехода в GNN является сжимающим отображением по отношению к состоянию узлов. Поскольку BFP гарантирует уникальное решение, авторы используют итерационный метод Якоби для вычисления решения с фиксированной точкой, состояния узлов. Метод Якоби итеративно решает алгоритм, сначала аппроксимируя значения для подключения, а затем повторяя до тех пор, пока не будет достигнута сходимость.

Это вычисление представлено сетью, состоящей из модулей, которые вычисляют функцию перехода и вывода. На изображении ниже показана сеть кодирования, а затем ее развернутое представление. Когда функция перехода и функция вывода реализуются нейронной сетью прямого распространения (NN), кодирующая сеть становится рекуррентной нейронной сетью, типом NN, в котором соединения между узлами образуют ориентированный граф во временной последовательности. Эти типы сетей чаще всего используются при обработке последовательности ввода. Каждый уровень в результирующей сети соответствует моменту времени и содержит копию всех единиц сети кодирования, в то время как соединения между уровнями зависят от исходной связи сети кодирования.

Как уже упоминалось, каждый шаг обратного распространения требует хранения состояний каждого экземпляра модулей, а для больших графиков требуется значительная память. Алгоритм Алмейды-Пинеды [3, 4] был использован, чтобы помочь уменьшить это, предполагая, что если уравнение 5 (показанное выше) достигло стабильной точки перед вычислением градиента, обратное распространение во времени может быть выполнено путем сохранения только x, поскольку не ожидается, что он изменится при изменении t. Чтобы узнать больше об этом, я рекомендую посмотреть исходную статью, в которой приведены доказательства и математические формулировки.

Нейронная сеть с передачей сообщений (MPNN)

Из-за растущего интереса к GNN в применении химии и молекулярных исследований, [5] сформулировал структуру для GNN и преобразовал предыдущие исследования в этот формат в качестве иллюстрации. Основные отличия:

Не предполагает, что краевые элементы являются дискретными
Две фазы: фаза сообщения и фаза считывания, где фаза считывания является новой.

Фаза сообщения аналогична объединенной функции перехода и функции вывода, где M - функция перехода, а U - функция вывода. Фаза считывания является функцией всех состояний узлов и выводит метку для всего графа.

Авторы показывают, как предыдущие подходы к GNN могут быть сформулированы в структуре MPNN, показывая ее универсальность.

Кто использует MPNN?

MPNN используется в дальнейших исследованиях, таких как сегментация изображений, позиционные графы, химические / молекулярные графы, обработка естественного языка и т. Д. Многие из этих подходов решают опасения, что GNN по своей сути плоские, не изучают иерархические представления графов и, как правило, требуют больших вычислительных ресурсов, если к ним не подходить должным образом. Во время обзора литературы, в которой MPNN применяется в своей работе, наиболее частым изменением исходной структуры MPNN было использование подграфов. Это помогло исследователям сократить объем вычислений в некоторых случаях, а также представить иерархические графические отношения внутри всего графа.

Надеюсь, исследования в этой области будут продолжены и смогут распространиться на более крупные графы с более динамичным взаимодействием. Это позволит использовать дальнейшие подходы к моделированию для больших социальных сетей, которые можно дифференцировать.

использованная литература

[1] Монфардини, Г., Ах Чунг Цой, Хагенбухнер, М., Скарселли, Ф., и Гори, М. (2008). Модель графической нейронной сети. Транзакции IEEE в нейронных сетях, 20 (1), 61–80. Https://doi.org/10.1109/tnn.2008.2005605

[2] Какамарга, М. Ф., Пардамин, Б., и Баурли, Дж. (2014). Сравнение метода сопряженных градиентов и алгоритма метода Якоби на фреймворке mapreduce. Прикладные математические науки, 8 (17), 837–849.

[3] Пинеда, Ф.Дж., 1987. Обобщение обратного распространения для рекуррентных нейронных сетей. Physical Review Letters, 59 (19), стр.2229.

[4] Алмейда, Л.Б., 1987. Правило обучения для асинхронных перцептронов с обратной связью в комбинаторной

[5] Гилмер Дж., Шёнхольц С. С., Райли П. Ф., Виньялс О. и Даль Г. Э. (2017). Передача нейронных сообщений для квантовой химии. Получено с http://arxiv.org/abs/1704.01212

[6] Д. Дювено, Д. Маклорен, Дж. Агилера-Ипаррагирре, Р. Гмез-Бомбарелли, Т. Хирзель, А. Аспуру-Гузик и Р. П. Адамс, «Сверточные сети на графах для изучения молекулярных отпечатков пальцев», 2015 г.

[7] Й. Ли, Д. Тарлоу, М. Брокшмидт, Р. Земель, «Нейронные сети с последовательностью стробированных графов», 2015.

[8] П. В. Батталья и М. Лай, «Интерактивные сети для изучения объектов, отношений и физики» arXiv: 1612. 00222v1 [cs. AI] 1 декабря 2016 г. »

[9] К. Т. Шутт, Ф. Арбабзада, С. Чмиела, К. Р. Мюллер и ¨ А. Ткаченко, «Квантово-химические исследования из глубоких тензорных нейронных сетей», Nature Communications, т. 8, стр. 13890, 2017.