Введение

Графы — это сложные и разнообразные структуры данных, которые могут представлять различные виды информации, такие как социальные сети, молекулярные структуры или базы знаний. Однако учиться на графах непросто, так как для этого требуются модели, способные отражать богатые и тонкие закономерности структуры графа. Графовые нейронные сети (GNN) и многослойные персептроны (MLP) — две популярные модели обучения на графах, но у них есть свои недостатки. GNN часто страдают от двух основных проблем: чрезмерного сглаживания и чрезмерной подгонки. Чрезмерное сглаживание происходит, когда представления узлов становятся неразличимыми после нескольких уровней передачи сообщений, что приводит к потере информации, относящейся к узлу. Переобучение происходит, когда модель запоминает обучающие данные и не может обобщить невидимые графики, особенно когда распределение графов разнообразно или зашумлено.

Чтобы решить эти проблемы, группа исследователей из Пекинского университета, Ant Group и Стэнфордского университета разработала новую модель под названием VQGraph. VQGraph расшифровывается как Graph Vector-Quantization, метод, который сжимает представления узлов в дискретные коды, которые могут быть эффективно обработаны многослойными персептронами (MLP). VQGraph стремится преодолеть разрыв между GNN и MLP и использовать преимущества обеих моделей.

Что такое VQGraph?

VQGraph — это метод векторного квантования графа, целью которого является преодоление разрыва между GNN и MLP. Это достигается за счет введения нового метода векторного квантования графа, который может эффективно кодировать структурную информацию графов в векторы фиксированной длины.

Ключевые возможности VQGraph

VQGraph имеет несколько ключевых функций, которые делают его эффективной и действенной моделью для изучения графов. Вот некоторые из этих особенностей:

  • Сжатие кода: VQGraph преобразует функции узлов в компактные и надежные дискретные коды. Эти коды могут отражать суть графа и обеспечивать обучение переносу между графами.
  • Самоконтроль: VQGraph обучает кодовую книгу и векторный квантователь с помощью контрастного обучения, который представляет собой метод самоконтроля, который максимизирует соответствие между похожими входными данными и сводит к минимуму путаницу между разнородными входными данными. VQGraph применяет контрастное обучение как на уровне узла, так и на уровне графа, чтобы повысить дискриминационную способность кодов.
  • Адаптация MLP: VQGraph использует MLP в качестве декодера для прогнозирования выходных данных кодов на уровне графа. MLP — это простая, но выразительная модель, которая может изучать сложные нелинейные функции на основе многомерных входных данных. MLP также можно легко настроить для различных задач и областей, изменив его структуру или функции активации.
  • Кодирование графов: VQGraph может эффективно кодировать структурную информацию графов в векторы фиксированной длины. Это может повысить производительность GNN в задачах классификации графов за счет уменьшения чрезмерного сглаживания и переобучения. Это также может улучшить производительность MLP в задачах классификации графов за счет повышения обобщения и выразительности.

Возможности/вариант использования VQGraph

VQGraph — это универсальная модель, которую можно применять к различным задачам и областям обучения графу. Вот несколько примеров того, как можно использовать VQGraph:

  • Открытие лекарств: VQGraph может классифицировать молекулы или белки на основе их свойств или функций, что может помочь в поиске новых лекарств или понимании того, как работают существующие лекарства.
  • Анализ социальных сетей: VQGraph может анализировать социальные сети на основе их структуры или динамики, что может помочь в выявлении влиятельных узлов, сообществ или шаблонов в сети.
  • Завершение графа знаний: VQGraph может дополнять отсутствующую или зашумленную информацию в графах знаний на основе их семантики или отношений, что может помочь повысить качество и охват графа знаний.

Как работает VQGraph?

VQGraph работает с использованием варианта VQ-VAE, который представляет собой метод, который сжимает входные данные в дискретные коды, которые могут быть эффективно обработаны MLP. VQGraph сначала изучает кодовую книгу векторов-прототипов, которые представляют различные подструктуры в графах. Затем для каждого графа он векторизует и квантует его матрицу смежности, используя кодовую книгу, чтобы получить векторное представление графа фиксированной длины. Это позволяет VQGraph создавать новое мощное пространство представления графов, учитывающее структуру и выразительное. Размером кодовой книги можно гибко управлять, чтобы он соответствовал графикам различных масштабов и обогащал выразительность пространства представления графа. Как показано на рисунке ниже, VQGraph использует этот процесс для кодирования графиков в векторы.

VQGraph также использует специальную цель дистилляции для эффективного соединения GNN и MLP. Этот метод максимизирует согласованность между назначениями программных токенов GNN и MLP, которые получаются путем сравнения выходных данных кодировщика и всех вложений токенов. Это позволяет MLP изучать как локальные структурные знания из GNN, так и глобальный структурный контекст данных графа. Таким образом, VQGraph может повысить производительность как GNN, так и MLP в задачах обучения графу.

Оценка эффективности

Обширные эксперименты и анализы демонстрируют высокую производительность VQGraph, где он достигает новой современной производительности при дистилляции GNN-MLP как в трансдуктивных, так и в индуктивных настройках для семи наборов графических данных. VQGraph делает выводы быстрее, чем GNN, в 828 раз, а также обеспечивает повышение точности по сравнению с GNN и автономными MLP в среднем на 3,90% и 28,05% соответственно.

Модель была оценена на основе пяти широко используемых общедоступных эталонных наборов данных и двух больших наборов данных OGB. VQGraph превосходит все базовые показатели, включая модели GNN для учителей, во всех наборах данных. В частности, VQGraph повышает производительность в среднем на 3,90% по сравнению с GNN-учителем, подчеркивая его способность собирать превосходную структурную информацию, не полагаясь на явный ввод структуры графа. Дальнейший модельный анализ VQGraph представлен в таблице выше.

В приведенной выше таблице показаны результаты классификации узлов VQGraph и других моделей (включая два современных метода дистилляции GNN-MLP: GLNN и NOSMOG) при стандартных настройках, где модели обучаются и тестируются на одном и том же графе. Результаты показывают точность каждой модели, что означает, насколько хорошо они могут предсказать правильные метки узлов. Более высокая точность означает лучшую производительность.

Для получения дополнительной информации о проведенных экспериментах, дополнительных визуализациях и статистическом анализе, а также исследованиях абляции рекомендуется прочитать исследовательскую работу. Это позволит получить более детальное и всестороннее представление о предмете.

Как получить доступ к этой модели и использовать ее?

VQGraph доступен на веб-сайте GitHub. Репозиторий содержит инструкции по установке и локальному использованию модели. Чтобы получить доступ к модели и использовать ее, вы можете посетить репозиторий GitHub, клонировать или загрузить код и следовать инструкциям, приведенным в репозитории, для установки и использования модели на вашем локальном компьютере. Рекомендуется связаться с авторами модели VQGraph для получения дополнительной информации о ее лицензировании и использовании.

Будущая работа

некоторые возможные направления будущей работы, а именно:

  • Расширение до более сложных сценариев. Текущая версия VQGraph предполагает, что графы являются ненаправленными и невзвешенными, а функции узлов являются бинарными или категориальными. Однако во многих реальных приложениях графики могут быть ориентированы, взвешены или атрибутированы непрерывными или многомерными функциями. Поэтому возможная будущая работа заключается в расширении VQGraph для обработки этих более сложных сценариев и тестировании его производительности на более разнообразных и сложных наборах данных.
  • Изучение других методов изучения кодовой книги. Текущая версия VQGraph использует вариант VQ-VAE для изучения кодовой книги векторов-прототипов, представляющих различные подструктуры в графах. Однако могут быть и другие методы, которые могут изучить лучшую кодовую книгу, которая может фиксировать более детализированную или иерархическую информацию о структуре графа. Поэтому возможной будущей работой является изучение других методов обучения кодовой книге, таких как дискретные автоэнкодеры, генеративно-состязательные сети или обучение с подкреплением, и сравнение их результатов с VQGraph.
  • Изучение других приложений и задач. Текущая версия VQGraph фокусируется на задачах классификации графов, целью которых является прогнозирование метки для каждого графа на основе его структуры и характеристик. Однако могут быть и другие приложения и задачи, которые могут выиграть от VQGraph, такие как генерация графов, сопоставление графов, кластеризация графов или встраивание графов. Поэтому возможная будущая работа заключается в изучении того, как VQGraph можно применить или адаптировать к этим другим приложениям и задачам, и оценить его производительность и полезность.

Заключение

VQGraph — это многообещающий новый метод преодоления разрыва между GNN и MLP за счет введения нового метода векторного квантования графа. Было показано, что этот метод эффективен для повышения производительности как GNN, так и MLP в задачах классификации графов, и он доступен для использования как исследователями, так и практиками.

Исходный
исследовательский документ — https://arxiv.org/abs/2308.02117
исследовательский документ — https://arxiv.org/pdf/2308.02117.pdf
GitHub Repo — https://github.com/YangLing0818/VQGraph

Первоначально опубликовано на https://socialviews81.blogspot.com.