Загрузите технический документ Обнаружение облачных знаний в документах KDD, чтобы ознакомиться с 12 документами KDD и открытиями 12 экспертов Alibaba.

Авторы: Цзечжун Цю, Цибинь Чен, Юйсяо Дун, Цзин Чжан, Хунся Ян, Мин Дин, Куансан Ван, Цзе Тан

Изучению графических представлений уделялось большое внимание. Однако большинство методов обучения представлению графов используются для изучения и моделирования графов для конкретных проблем предметной области. Нейронные сети сгенерированного графа сложно вывести из домена. В последнее время предварительное обучение имело большой успех во многих областях, что значительно улучшает производительность модели в последующих задачах. Вдохновленные представлениями двунаправленного кодера от Transformers (BERT, Devlin et al., 2018), мы начали изучать предварительное обучение графовых нейронных сетей, надеясь изучить общие особенности топологии графа. Мы разрабатываем Graph Contrastive Coding (GCC), структуру предварительного обучения графической нейронной сети, которая использует метод контрастного обучения для изучения внутренних и переносимых структурных представлений. Этот документ «GCC: графическое контрастирующее кодирование для предварительного обучения графической нейронной сети» был принят KDD 2020 Research Track.

Традиционное обучение представлению графа в основном использует модели обучения словесному представлению на основе пропуска граммов, такие как DeepWalk и Node2vec в обработке естественного языка (NLP). Эти методы моделируют сходство между соседними узлами, а созданные модели и обученные представления не являются общими, а ограничиваются конкретными сетями. В отличие от этих традиционных попыток, GCC фокусируется на структурном сходстве. Представления, полученные GCC, являются общими и могут быть перенесены во все типы сетей. На следующем рисунке показана базовая структура GCC.

GCC использует контрастную структуру обучения, чтобы уменьшить пространственное расстояние между положительными представлениями образцов и представлениями образцов, увеличивая при этом пространственное расстояние между отрицательными представлениями образцов. При контрастном обучении для заданного представления запроса q набор кандидатов содержит K + 1 представлений {k_0, k_1, ⋯, k_K}, из которых k_ + являются положительными выборками. Функция потерь оптимизируется следующим образом:

q и k являются низкоразмерными представлениями образцов x^q и x^k соответственно. GCC в основном предназначен для выборки подграфа сети (или сети r-ego), который формируется соседями r-порядка определенного узла. Положительные образцы - это сети, отобранные из одной и той же сети r-ego, тогда как большое количество отрицательных образцов - это подграфы, отобранные из других сетей r-ego. Получив как положительные, так и отрицательные образцы, мы начали создавать кодировщик графов для изучения представления графов. В качестве кодировщика GCC можно использовать любую графовую нейронную сеть. На практике в качестве кодировщика мы использовали сеть изоморфизма графов (GIN).

При сравнительном обучении требуется поддерживать словарь и кодировщики размера K. В идеале, чтобы вычислить предыдущую функцию потерь, словарь должен охватывать все отрицательные образцы. Это делает K чрезвычайно большим, и словарь трудно поддерживать. Чтобы обеспечить эффективность модели, мы добавили Momentum Contrast (MoCo, He et al., 2020). В структуре MoCo нам необходимо поддерживать очередь отрицательных выборок, чтобы увеличить размер словаря K. Эти отрицательные выборки получены из выборок ранее обученных партий. Для параметра θ_q кодера f_q q обновления распространяются в обратном порядке. Для параметра θ_k кодировщика f_k для k обновления распространяются следующим образом:

m обозначает импульс, который задается гиперпараметром. Для GCC MoCo более эффективен, чем другие методы.

GCC применим для последующих задач на уровне графа и уровня узла. Последующие задачи на уровне графа можно вводить как подграфы. Эта ситуация такая же, как и на предтренинге. Для последующих задач на уровне узла нам необходимо получить их сети r-ego или подграфы, взятые из их сетей r-ego.

Чтобы проверить эффект GCC, мы провели серию экспериментов, включая классификацию узлов, классификацию графов и поиск сходства. Результаты приведены ниже:

Согласно результатам эксперимента, GCC отлично справляется с обработкой множества задач и наборов данных. Его производительность близка или лучше существующей оптимальной модели. Это показывает эффективность GCC.

Подводя итог, в этой работе мы предлагаем GCC, который представляет собой структуру контрастного обучения на основе графов для предварительного обучения нейронных сетей на основе графов. Метод GCC изучает общие представления структур графов для получения структурированной информации графов. Эти представления могут быть перенесены на все типы последующих задач и графиков. Результаты эксперимента показывают эффективность GCC. В будущем мы планируем протестировать GCC на большем количестве задач и экспериментов, а также изучить возможность применения GCC в других областях.

использованная литература

Девлин, Дж., Чанг, М. В., Ли, К., и Тутанова, К. (2018). Берт: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка. Препринт arXiv arXiv: 1810.04805.

Он, К., Фан, Х., Ву, Ю., Се, С., и Гиршик, Р. (2020). Импульсный контраст для обучения визуальному представлению без учителя. В материалах конференции IEEE / CVF по компьютерному зрению и распознаванию образов (стр. 9729–9738)

Мнения, выраженные здесь, предназначены только для справки и не обязательно отражают официальные взгляды Alibaba Cloud.

Первоисточник: