Прогнозирование индуктивных ссылок в графах знаний

Запуск нового конкурса Inductive Link Prediction Challenge 2022

С самого 2011 года в области изучения репрезентаций с помощью графов знаний доминирует одна задача: предсказание трансдуктивных ссылок. Актуально ли это в 2022 году? 🤔 Скорее нет.

В настройке transductive (🖼 ☝️) мы делаем вывод (наш прогноз связи) на основе того же графика, который мы видели во время обучения. Мы также предполагаем, что у нас нет каких-либо предварительно вычисленных функций узла. Этот факт:

🔐 блокирует набор сущностей, чтобы они были одинаковыми во время обучения и вывода
🥚 позволяет неглубоко встраивать модели, изучающие уникальный вектор для каждого узла в графе.
🙅 не позволяет анализировать новые графики с использованием предварительно обученной модели

Пришло время окончательно отказаться от предсказания трансдуктивных связей на тройных KG и отказаться от него

С ростом количества графов в промышленности (от 100 М до 10 млрд узлов) и огромными вычислительными затратами на переобучение каждый раз, когда граф изменяется, основное внимание в изучении представления KG смещается в сторону индуктивных моделей, которые свободны от вышеуказанные ограничения.

Практическое значение: почему меня это должно волновать?

Что ж, трансдуктивное прогнозирование ссылок на ванильных KG на основе троек перестало отслеживать большую часть прогресса в изучении представления KG: вот выдержка из Papers With Code, визуализирующая прогресс в стандарте FB15k-237 эталон.

🤨 Видите ли вы какой-то значительный прогресс с 2019 года? (да, я тоже)

Ванильное прогнозирование трансдуктивных ссылок уже несколько лет практически устарело. Вместо этого большая часть прогресса в обучении представлению в 2021–2022 годах (например, Нейронные сети Беллмана-Форда или NodePiece) достигается либо с помощью новых модальностей KG (например, гиперреляционные KG) или имея в виду индуктивные свойства 👉 ознакомьтесь с нашей недавней статьей о состоянии дел Graph ML в KG для получения более подробной информации.

Что такое «индуктивная» установка?

В индуктивной настройке мы сняли требование наличия одного и того же графика во время обучения и вывода. В нашей статье ISWC 2021 (скромно упомянув, что она получила награду за лучшую исследовательскую работу 😊) мы определили два типа индуктивной установки:

Полностью индуктивный: новый график, полностью отделенный от обучающего. Таким образом, предсказание ссылок выполняется только для невидимых объектов (шаблон невидимый-к-невидимому).

2. Полуиндуктивный: обновленный график большего размера, который включает и расширяет обучающий график. Предсказание связи может включать как видимые, так и невидимые объекты, следовательно, шаблоны видимое-невидимое и невидимое-невидимое.

✅ Некоторые непосредственные преимущества индуктивных моделей:

Никаких неглубоких внедрений узлов! Они бесполезны при наличии новых невидимых узлов, и нам нужны новые способы изучения представлений сущностей.
Предварительно обученные модели не нуждаются в повторном обучении и могут сразу использоваться на новых или обновленных графиках.

Индуктивные модели создают дополнительную задачу обучения представлению, т. е. мы больше не можем использовать неглубокое векторное назначение для каждого узла, и нам нужны более эффективные способы построения признаков узла, которые можно будет обобщить на новые невидимые узлы. GNN и передача сообщений кажутся очень многообещающими в этом направлении.

Первая работа по индуктивному LP в полностью индуктивной настройке относится к статье Теру, Дениса и Гамильтона (ICML 2020), которая представила индуктивный подход к характеристике, основанный на локальном соседстве узлов. Поскольку подход был не очень масштабируемым, выборочные наборы индуктивных данных также были относительно небольшими, в основном ~ 2000–5000 узлов. Время масштабировать их! 🚀

Задача прогнозирования индуктивной связи 2022 г.

🐍 В Team PyKEEN мы разработали новый Inductive Link Prediction Challenge (ILPC), направленный на консолидацию усилий сообщества в создании моделей индуктивного рассуждения. На 2022 год мы предлагаем задачу прогнозирования индуктивной связи в полностью индуктивном режиме, т. е. когда графы обучения и логического вывода не пересекаются.

Наряду с новой статьей, описывающей тест, в ILPC 2022 представлены:

Новые наборы данных ILPC22-Small и ILPC22-Large взяты из Викиданных, крупнейшего общедоступного KG. Меньшая версия (S) хорошо подходит для проверки гипотез 🧪 и ограниченных вычислительных ресурсов, тогда как более крупная версия (L) представляет серьезную проблему даже для современных GNN, особенно с точки зрения размера графа вывода — насколько нам известно, это первые модели времени. должны обобщать невидимые графики ТАКОГО размера 👀.

Публичные сплиты содержат наборы для обучения, проверки и тестирования, но мы также сохраняем скрытый набор тестов набор для окончательной оценки представленных моделей (например, как это делается на Kaggle). для каждого размера набора данных. Кроме того, мы держим наборы данных в открытом доступе на Zenodo.
Кодовая база с разнообразным набором метрик и стандартизированной процедурой оценки. Кстати, недавно мы опубликовали 👉 новую работу👈 по разработке метрик ранжирования, отделенных от размеров наборов данных, и мы планируем использовать эти метрики и для окончательной оценки!
Два надежных базовых варианта, использующих индуктивный вариант NodePiece в качестве композиционного функционализатора: 1️⃣ простой NodePiece + непараметрический декодер; 2️⃣ NodePiece с двухуровневым кодером передачи сообщений CompGCN + непараметрический декодер. Наборы данных довольно сложны и далеки от решения:

Представления очень легко сделать, и они будут воспроизведены публично ♻️
Наконец, ILPC выпускает вместе с новой версией PyKEEN 1.8.0 с конвейерами индуктивного прогнозирования ссылок, новыми интерфейсами для построения индуктивных моделей и множеством новых показателей оценки 📏

Краткое содержание

Стартовал новый открытый конкурс Inductive Link Prediction Challenge 2022, попробуйте свои лучшие GNN и другие архитектуры!

📜 Статья: arxiv
💾 Датасеты: GitHub и Zenodo, открытая лицензия CC0
🛠 Репозиторий Github с таблицами лидеров и инструкциями
♻️ Вход Зенодо

Эта работа была бы невозможна без Чарльза Тэпли Хойта (Гарвард) и Макс Беррендорф (ЛМУ)🙌