Графические нейронные сети пользуются все большим успехом, но что они собой представляют на самом деле? Как они работают? Давайте вместе посмотрим на графики в этих историях! Сегодня: основополагающая статья Скарселли о графической нейронной сети
Данные часто легко визуализировать и интерпретировать в виде графиков. Графики помогают находить скрытые ответы среди сложных шаблонов, а также проливают свет на лежащие в основе отношения между точками данных. Таким образом, неудивительно, что графические приложения распространены повсеместно: от анализа социальных сетей [1–5] до нейробиологии [6,7], ранжирования страниц [8–10], теории кратчайшего пути [11–14] и химии [15]. –19].
С 2006 года теория графов вошла в тесный контакт с машинным обучением с новой концепцией приложений Graph Neural Networks. Самое первое предложение было опубликовано в 2006 г. Скарселли и Гори [20] и впоследствии обобщено в 2008 г. [21] в статье «Модель графической нейронной сети». Здесь авторы заложили математические основы современной графической нейронной сети. С тех пор в литературе наблюдались всплески в работах по графическому машинному обучению [22–28], которые заставляли мир графов все больше и больше развиваться, более точно определяя, каковы ключевые элементы этих математических структур и как связать их с более совершенными алгоритмами машинного обучения. .
Я думаю, что каждая статья о теории графов и машинном обучении - это приключение, в котором авторы устанавливают свою номенклатуру и математическое развитие. Таким образом, я хотел начать эту серию руководств по графам, чтобы дать простое объяснение с математической строгостью и вычислительными примерами на Python. Сегодня мы начнем это путешествие с основной статьи Скарселли «Модель графической нейронной сети». Начнем!
Модель графической нейронной сети
Определения
Графическая нейронная сеть (GNN) происходит от двух методов машинного обучения: рекурсивной нейронной сети (RNN) [30–32] и цепей Маркова [33–35], где лежащие в основе Идея состоит в том, чтобы кодировать данные с помощью графа, используя отношения между узлами. В частности, подход RNN ориентирован на графы, когда цель пользователя - пометить данный граф после обучения с помеченными графами. Подход с использованием цепей Маркова ориентирован на узлы, когда каждый узел помечен, и пользователь ищет прогнозы на уровне узла. Модель GNN инкапсулирует уроки из этих предыдущих моделей и подходит как для приложений, ориентированных на графы, так и для узлов.
Кроме того, GNN обобщает вычисления на основе графов для обработки как симметричных, так и асимметричных графиков, рис.1. Граф определяется симметричным, если его свойства среди узлов не меняются после изменения положений узлов, а именно вы всегда получаете один и тот же график. Напротив, в асимметричном графе порядок очень важен, поскольку различные графы могут быть получены путем перетасовки позиций узлов. В случае асимметричности пара узлов определяет ребро, которое называется дугой, а граф называется направленным, а именно, он имеет определенное направление.
Вычислительная проницательность
Что касается вычислительных графов, каждый узел обогащен некоторыми атрибутами, собранными в метку. Метка - это вектор с предопределенной размерностью, который кодирует характеристики, описывающие каждый узел (например, средний цвет пикселя в изображении, форму объекта и т. Д.) И отношения между узлами - краями (например, расстояние между интересующими точками. в распознавании изображений и т. д.). Учитывая основные условия функций, структура графа заметно отличается от простой нейронной сети. Действительно, каждый узел мог знать, что происходит в его окрестностях, и мог видеть текущее состояние (или особенности) соседнего узла (рис. 2).
Таким образом, можно определить график как математический объект. Каждый узел имеет определенное состояние x ₙ, которое содержит свойства узлов, а также свойства соседей. Кроме того, с каждым узлом связана функция локального перехода f𝓌, которая моделирует зависимость функций x ₙ от контекста узла n и функция локального вывода g𝓌, которая описывает, как производится вывод для каждого узла.
Пока все хорошо, но при работе с f𝓌 возникают проблемы. Может быть переменное количество аргументов в зависимости от размера соседства или когда набор соседей не упорядочен. Следовательно, f𝓌. должен быть инвариантным к перестановке узлов в окрестности. Чтобы удовлетворить это математическое и техническое ограничение, можно обобщить f𝓌 как функцию h𝓌. Эта последняя функция перехода инвариантна к положениям узлов и количеству узлов в графе и зависит от заданной метки дуги между узлами n и u
Требование: теорема Банаха о неподвижной точке
После определения основных функций и структуры графа необходимо вычисление состояния x ₙ - нам нужно определить a. Суть трактовки вычислений GNN Скарселли - это теорема Банаха о неподвижной точке. Теорема Банаха о неподвижной точке также называется c теоремой об отображении притяжения. Эта теорема устанавливает существование и единственность неподвижной точки в заданном метрическом пространстве для функции сжимающего отображения. Что это значит?
- Неподвижная точка в математике - это решение для заданной функции F, а именно, когда функция является тождественной
- Затем рассмотрите понятие расстояния, а именно то, насколько две точки a и b находятся далеко друг от друга. Учитывая набор чисел X, можно вычислить расстояние между этими точками. Меры расстояния определяют новое пространство, называемое метрическим пространством, которое представлено набором X и результатом функции расстояния (X, d)
- Теперь в этом метрическом пространстве у нас может быть математическая функция F, которую можно применить к точкам a и b для получения другой меры. Если расстояние между полученными точками F (a) и F (b) меньше реального расстояния между a и b , F - это карта сжатия.
- Если F - сжимающееся отображение, то Банах доказал, что для такой функции существует решение с неподвижной точкой
Следствием такой теоремы является то, что можно вычислить текущее состояние узлов с помощью итерационной схемы. Можно сказать, что в основном состояния узлов обновляются каждый раз, чтобы найти нужную метку.
На данный момент мы почти готовы перейти к стадии производства. Однако какие функции должны быть у нас, чтобы f𝓌 / h𝓌 и g𝓌 удовлетворяли теореме Банаха о неподвижной точке? Сюрприз, сюрприз, вот вторая важная часть GNN: эти функции могут быть простыми многослойными перцептронами (MLP). Действительно, MLP может использовать универсальную теорию приближений, поэтому они удовлетворяют требованиям Банаха. Первоначально каждое устройство инициировало случайные состояния. Функции f𝓌 / h𝓌 будут обновлять эти состояния до тех пор, пока не будет достигнута сходимость, а именно, когда будет найдено решение с фиксированной точкой. Затем можно продолжить окончательное вычисление MLP с помощью g𝓌, который, в свою очередь, вернет прогноз вывода для каждого узла или для самого графа.
Теперь, когда мы теоретически увидели, как работает GNN, следите за следующей публикацией, где мы будем реализовывать GNN в вычислительном отношении!
Если у вас возникнут вопросы или комментарии, присылайте мне электронное письмо по адресу [email protected] или прямо здесь, в Medium.
БИБЛИОГРАФИЯ
- Айзопос, Фотис, Джордж Пападакис и Теодора Варваригу. «Анализ тональности контента в социальных сетях с использованием n-граммовых графиков». Материалы 3-го международного семинара ACM SIGMM по социальным сетям. 2011 г.
- Кэмпбелл, Уильям М., Чарли К. Дагли и Клиффорд Дж. Вайнштейн. «Анализ социальных сетей с помощью контента и графиков». Lincoln Laboratory Journal 20.1 (2013): 61–81.
- Коган, Питер и др. «Реконструкция и анализ графиков разговоров в твиттере». Материалы первого международного семинара ACM по актуальным темам междисциплинарных исследований социальных сетей. 2012 г.
- Амати, Джамбаттиста и др. «TWITTER АНАЛИЗ ВРЕМЕННОЙ ЭВОЛЮЦИИ: СРАВНЕНИЕ ГРАФИКОВ СОБЫТИЙ И ТЕМАТИЧЕСКИХ РЕТВИТОВ». Международный журнал IADIS по компьютерным наукам и информационным системам 11.2 (2016 г.).
- Росси, Эмануэле и др. «Сети временных графов для глубокого обучения на динамических графах». Препринт arXiv arXiv: 2006.10637 (2020).
- Бассетт, Даниэль С., Перри Зурн и Джошуа И. Голд. «О природе и использовании моделей в сетевой нейробиологии». Nature Reviews Neuroscience 19.9 (2018): 566–578.
- Sporns, Олаф. «Методы теории графов: приложения в мозговых сетях». Диалоги в клинической нейробиологии 20,2 (2018): 111.
- Абедин, Бабак и Бабак Сохраби. «Приложение теории графов и ранжирование веб-страниц для улучшения структуры ссылок веб-сайта». Поведение и информационные технологии 28.1 (2009): 63–72.
- Мегхабхаб, Джордж. «Рейтинг веб-страниц Google применяется к различным топологическим структурам веб-графов». Журнал Американского общества информационных наук и технологий 52.9 (2001): 736–747.
- Скарселли, Франко и др. «Графические нейронные сети для ранжирования веб-страниц». Международная конференция по веб-аналитике IEEE / WIC / ACM 2005 г. (WI’05). IEEE, 2005.
- Голдберг, Эндрю В. и Крис Харрельсон. «Вычисление кратчайшего пути: поиск соответствует теории графов». СОДА. Vol. 5. 2005.
- Галло, Джорджио и Стефано Паллоттино. «Алгоритмы кратчайшего пути». Летопись операционных исследований 13.1 (1988): 1–79.
- Боргвардт, Карстен М. и Ханс-Петер Кригель. «Ядра кратчайшего пути на графах». Пятая международная конференция IEEE по интеллектуальному анализу данных (ICDM’05). IEEE, 2005.
- Хэдлок, Ф. О. «Алгоритм кратчайшего пути для сеточных графов». Сети 7.4 (1977): 323–334.
- Балабан, Александру Т. «Приложения теории графов в химии». Журнал химической информации и компьютерных наук 25.3 (1985): 334–343.
- Vergniory, M. G., et al. «Данные теории графов для топологической квантовой химии». Physical Review E 96.2 (2017): 023310.
- Брэдлин, Барри и др. «Связность зон для топологической квантовой химии: зонные структуры как проблема теории графов». Physical Review B 97.3 (2018): 035138.
- Коли, Коннор В. и др. «Графо-сверточная модель нейронной сети для прогнозирования химической реактивности». Химическая наука 10.2 (2019): 370–377.
- Тан, Боуэн и др. «Нейронная сеть передачи сообщений на основе самовнимания для прогнозирования молекулярной липофильности и растворимости в воде». Журнал хеминформатики 12.1 (2020): 1–9.
- Скарселли, Франко и др. «Графические нейронные сети для ранжирования веб-страниц». Международная конференция по веб-аналитике IEEE / WIC / ACM 2005 г. (WI’05). IEEE, 2005.
- Скарселли, Франко и др. «Модель нейронной сети графа». Транзакции IEEE в нейронных сетях 20.1 (2008): 61–80.
- Пероцци, Брайан, Рами Аль-Рфу и Стивен Скиена. «Deepwalk: онлайн-обучение социальных представлений». Материалы 20-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных. 2014 г.
- Ли, Юджиа и др. «Нейронные сети с последовательностью стробированных графов». Препринт arXiv arXiv: 1511.05493 (2015).
- Гилмер, Джастин и др. «Передача нейронных сообщений для квантовой химии». Международная конференция по машинному обучению. ПМЛР, 2017.
- Кипф, Томас Н. и Макс Веллинг. «Классификация с полууправлением со сверточными сетями на графах». Препринт arXiv arXiv: 1609.02907 (2016).
- Ву, Феликс и др. «Упрощение сверточных сетей на графах». Международная конференция по машинному обучению. ПМЛР, 2019.
- Гамильтон, Уильям Л., Рекс Инь и Юре Лесковец. «Обучение индуктивному представлению на больших графах». Труды 31-й Международной конференции по системам обработки нейронной информации. 2017 г.
- Батталья, Питер В. и др. «Реляционные индуктивные предубеждения, глубокое обучение и сети на графах». Препринт arXiv arXiv: 1806.01261 (2018).
- Закари, Уэйн В. «Модель информационного потока для конфликта и разделения в малых группах». Журнал антропологических исследований 33.4 (1977): 452–473.
- Фраскони, Паоло, Марко Гори и Алессандро Спердути. «Общая основа для адаптивной обработки структур данных». Транзакции IEEE в нейронных сетях 9.5 (1998): 768–786.
- Спердути, Алессандро и Антонина Старита. «Контролируемые нейронные сети для классификации структур». Транзакции IEEE в нейронных сетях 8.3 (1997): 714–735.
- Хагенбухнер, Маркус, Алессандро Спердути и А Чунг Цой. «Самоорганизующаяся карта для адаптивной обработки структурированных данных». Транзакции IEEE в нейронных сетях 14.3 (2003): 491–505.
- Брин, Сергей и Лоуренс Пейдж. «Анатомия крупномасштабной гипертекстовой поисковой системы». Компьютерные сети и системы ISDN 30.1–7 (1998): 107–117.
- Кляйнберг, Джон М. «Авторитетные источники в среде с гиперссылками». СОДА. Vol. 98. 1998.
- Цой, А Чанг и др. «Адаптивное ранжирование веб-страниц». Материалы 12-й международной конференции по всемирной паутине. 2003 г.