Погоня за килограммами на крупных конференциях

Сети знаний @ ICLR 2021

Ваш путеводитель по исследованиям машинного обучения, связанным с КГ, майский выпуск

ICLR недавно превзошел другие площадки, посвященные ИИ, с точки зрения привлеченных цитат и общей оценки в сообществе 🎉 Давайте посмотрим на недавние плюсы в нашей любимой области графов знаний!

Во-первых, я хотел бы упомянуть другие замечательные резюме ICLR и других связанных с графиками статей коллег 👏: Сергея Иванова Бюллетень Graph ML, очень удобное Paper Notes от Виталия Курина и, конечно же, выпуск бюллетеня Себастьяна Рудера на ICLR'21 . Они помогут вам понять, что происходит в этих 860 принятых статьях с точки зрения Graph ML, NLP и RL.

Здесь мы сосредоточимся на исследованиях, связанных с КГ. Это издание будет иметь следующую структуру:

  1. Рассуждения в графах знаний: проще, чем вы думали
  2. Временная логика и КГ
  3. Перспектива НЛП: PMI и отношения, связывание организаций
  4. Ответ на сложный вопрос: больше способов
  5. "Оглядываться"

Рассуждение в KG: проще, чем вы думали

Как мы видели в статье NeurIPS’20, встраивание запросов и ответы на нейронные запросы - это 🔥 темы, и такие системы гораздо более способны к сложным рассуждениям, чем модель встраивания N + 1 KG.

Обычно при встраивании запроса вам нужно внедрить множество возможных комбинаций атомов, которые легко могут быть 50 миллионами точек, вызванных запросами с 1, 2, И, ИЛИ и т. Д. То есть, начиная с относительно небольшого графа (типичным эталоном является подмножество Freebase из 270K ребер), вам нужно встроить на порядки больше точек. Это действительно необходимо? 🤨

Удивительно, но нет! Аракелян, Даза, Минервини и Кочез показывают, что достаточно взять любую предварительно обученную модель встраивания KG (обученную только на одноэлементных запросах в форме head, relation, ?) и декодировать их в умный способ. Авторы предлагают CQD (Continuous Query Decomposition) с двумя вариантами: 1) модельные запросы с t-нормами (непрерывная оптимизация); 2) просто используйте поиск луча (комбинаторная оптимизация), аналогичный тому, который используется в вашем любимом трансформаторе NLG. То есть вы просто пересекаете 🛩 пространство встраивания с помощью поиска луча, и вам не нужны все эти избыточные миллионы точек. 👨‍🔬 В экспериментах стратегия поиска луча работает очень хорошо и намного превосходит предыдущие подходы, которые явно моделируют эти миллионы. Это отличный результат, и, на мой взгляд, он станет очень надежной базой для всех будущих работ в этой области. Заслуженная награда« Выдающаяся статья ICLR’21 »! 🙌

Продолжая правила и рассуждения, Ку, Чен и др. избрали другое направление и предложили RNNLogic, алгоритм которого изображен ниже 👇. RNNLogic использует реляционные пути, которые можно добыть из фонового KG и, следовательно, сгенерировать после некоторой процедуры обучения. По запросу head, relation, ? мы сначала генерируем набор правил (последовательность отношений, параметризованных LSTM, отсюда берется RNN-часть имени), из которых мы выбираем наиболее правдоподобные правила, а затем отправляем их в предсказатель, чтобы получить оценки по возможным ответам. То есть генератор пытается предсказывать все более и более совершенные правила, сокращая пространство поиска для предсказателя. Предиктор может быть параметризован вложениями сущностей и отношений, подобных RotatE, что показывает наблюдаемые улучшения в экспериментах. Во время логического вывода RNNLogic не только предсказывает целевую сущность запроса, но и поддерживает его с помощью набора соответствующих правил, которые положительно влияют на объяснимость - распространенную ловушку алгоритмов, ориентированных только на встраивание.

Временная логика и KG

Во временной настройке мы добавляем измерение времени к нашему KG. То есть теперь у нас есть четверки (head, relation, tail, time) с отметками времени в качестве точек данных, и, следовательно, наши запросы (head, relation, ?, time). Другими словами, модель должна учитывать, когда возникла конкретная связь. Мы заметили в сообщении EMNLP’20, что эта установка становится все более привлекательной.

В ICLR’21 Хан, Чен и др. предлагают xERTE, модель, основанную на внимании, способную предсказывать будущие ссылки 🧙‍♂️. Суть xERTE - это итеративное расширение подграфа вокруг head, и это расширение отслеживает увиденные временные метки, так что предыдущие ссылки не имеют доступа к последующим. В некотором смысле его можно рассматривать как временное расширение GraIL (ICML’20) 🤔. Встраивание каждого узла получается путем объединения встраивания сущностей и встраивания во времени (которое оказывается d- -мерным вектором косинусов различной частоты). Затем за L шагов, обычно менее 4, xERTE вычисляет внимание по соседям, обрезает подграф, чтобы сохранить только наиболее вероятные узлы, и выдает распределение оценок внимания по кандидатам (👇). Благодаря итеративному характеру, xERTE может визуализировать пути рассуждений ранжированных прогнозов, что было хорошо оценено более чем 50 участниками пользовательского исследования!

Я также поместил в этот раздел очень интересную работу Хана и др. об обучении решать формулы линейной временной логики (LTL), которые широко используются в формальной проверке. LTL основан на логике высказываний с временными операторами Next (некоторая формула выполняется в следующей позиции последовательности), Пока (выполняется некоторая формула f пока не останется g), каждый момент времени и будущий момент времени. Формулы могут выглядеть так (👇), т. Е. Представляют собой довольно длинные последовательности атомов и операторов:

Авторы ставят задачу предсказать решение формул LTL путем создания удовлетворительной трассировки 👣.

Что мы делаем с последовательностями? Разумеется, поместите их в Трансформатор.

Авторы обнаружили, что даже относительно небольшой преобразователь (8 слоев, 8 головок, размер 1024 FC) дает удивительно хорошие результаты, точные как семантически, так и синтаксически. Поскольку проверка логических формул намного проще, чем их поиск (обычно лог или полином), преобразователь может генерировать правдоподобные решения, которые затем могут быть проверены не нейронными решателями. Кроме того, авторы отмечают, что Transformer может обобщаться на семантику LTL и хорошо работать с более крупными / длинными формулами по сравнению с обучающими формулами!

Перспектива НЛП: отношения и PMI, связывание сущностей

В этом году проводится большое количество исследований, связанных с НЛП с участием КГ.

Во-первых, Аллен, Балажевич и Хоспедалес изучают природу встраивания обучаемых отношений в KG с точки зрения PMI (точечная взаимная информация). Еще в 2014 году Леви и Голдберг показали (в своей очень влиятельной статье), что изучение word2vec неявно факторизует матрицу совпадений слов PMI. Затем было показано, что из этого можно извлечь определенные семантические понятия, такие как родство, перефразирование, сходство и аналогия. Матрица PMI. Можем ли мы провести параллели 🛣 и наблюдать такие закономерности в обучаемых отношениях KG?
Оказывается, да! Авторы выделили 3 возможные категории отношений: 1) те, которые сигнализируют о родстве двух узлов (например, отношение verb_group в Wordnet); 2) имеющие специализацию (гипоним - гиперним); 3) наиболее частый сдвиг контекста (например, мероним). Кроме того, матрицы отношений типа родства имеют тенденцию быть более симметричными, а собственные значения / нормы матриц / векторов отношений указывают на силу родства. Затем авторы демонстрируют, что мультипликативные модели, такие как DistMult или TuckER, лучше отражают такие типы отношений родства в KG. 🏃‍♀ В погоне за SOTA, в текущей литературе по встраиванию KG отсутствует глубокий анализ того, что на самом деле изучается, и приятно видеть такое давно необходимое качественное исследование 👏

Дин, Ван и др. также представляют работу, посвященную отношениям, но на этот раз в контексте извлечения отношений из исходных текстов и изучения отношений прототипов. То есть, вместо того, чтобы научиться различать сотни уникальных отношений (некоторые из которых могут быть семантически похожими), мы предпочли бы изучить меньший набор центроидов / прототипов, которые сгруппировали бы подобные отношения вместе на многообразии - авторы предлагают единичную сферу (см. иллюстрацию). Для предварительного обучения авторы используют слабые метки из Викиданных (😍), используя свои отношения вместе с отображенными объектами из Википедии. Полученный в результате подход особенно хорошо работает в сценариях с нулевым или малым количеством выстрелов с абсолютным улучшением до 10% 💪

Двигаясь к сущностям, Де Цао и др. предлагают еще раз взглянуть на задачу связывания сущностей. Обычно в извлекающих средствах и компоновщиках сущностей, таких как DPR или BLINK, вы должны хранить в памяти весь индекс именованных сущностей, где многие сущности имеют определенные общие токены, например, Леонардо ДиКаприо , Леонардо да Винчи , Нью-Йорк , Нью-Джерси и т. д.

Конечно, в больших базах знаний из миллионов сущностей это приводит к большому расходу памяти и необходимости иметь жесткие отрицательные образцы во время обучения, чтобы иметь возможность различать Нью-Йорк и Нью-Джерси . Вместо этого авторы предлагают GENRE (генеративное извлечение сущностей) для генерации имен сущностей авторегрессивно (токен за токеном) в зависимости от контекста (посмотрите потрясающую иллюстрацию ниже 👇). В качестве основы авторы используют BART для тонкой настройки генерации имен сущностей. Процесс вывода с использованием лучевого поиска немного более громоздок: поскольку мы хотим отсечь невозможные комбинации (например, не выбирать Джерси после Леонардо), авторы создают префиксное дерево (дерево), которое кодирует 6 миллионов заголовков Википедии. в приличном индексе 600 Мб. GENRE также эффективно использует параметры 🏋: в то время как DPR или BLINK требуют 30–70 ГБ памяти и 6–15 млрд (миллиардов) параметров, GENRE требует только 2 ГБ и 17 млн ​​(миллионов) параметров!

Кстати, мультиязычная версия mGENRE была опубликована и выпущена всего несколько недель назад 😉

Ответ на сложный вопрос: больше способов

На этот раз наше меню 🍽 содержит исследования по обеспечению качества в открытом домене, в котором часто используются графические структуры между документами как пути рассуждений (тогда как QA на основе KG напрямую проходит через фоновый KG). QA в открытой области сразу же выигрывает от чрезвычайно больших LM и недавних методов плотного поиска, поэтому большие усилия больших лабораторий вкладываются в это измерение.

Во-первых, Xiong, Li, et al распространяют идею Dense Passage Retriever на многоступенчатую настройку, где на сложные вопросы итеративно шаг за шагом отвечают. Во время обучения вы должны кормить MDR (Multi-hop Dense Retriever) с вопросом и ранее извлеченными отрывками вместе с положительными и отрицательными выборками возможных отрывков, так что это довольно близко к исходному ДНР. При выводе (см. Иллюстрацию ниже) авторы применяют поиск лучей и MIPS для создания топ-K переходов, оценки их и добавления лучших кандидатов к запросу на следующей итерации. Практически все существующие наборы данных QA с несколькими переходами могут быть решены за 2–3 шага, поэтому это не является большой нагрузкой для системы.
🧪Эксперименты показывают, что структура графа здесь не нужна. То есть вы можете опустить анализ и переход по ссылкам между абзацами и прибегнуть к одному только плотному индексу, чтобы получить еще лучшее качество предсказания! В среднем, MDR на 5–20 абсолютных пунктов лучше и в 10 раз быстрее, чем его соперники. Кроме того, похож ли выбранный подход (поиск луча по предварительно обученному индексу) концептуально CQD для ответа на запрос KG из первого раздела? 😉

В то время как MDR фокусируется на отрывках из чистого текста (извлеченных из Википедии или других текстовых источников), постоянная тенденция EMNLP заключается в том, чтобы охватить больше источников, помимо плоских текстов. С этой целью Чен и др. изучают проблему комплексного контроля качества над табличными и текстовыми данными и создают новый OTT-QA набор данных (Открытый текстовый ответ на вопрос). Авторы предлагают элегантное решение линеаризации таблиц на сегменты таблицы, которое нужно поместить в преобразователь: разбить таблицу на строки и добавить к каждой строке некоторую общую информацию обо всей таблице (например, заголовок, min / максимальные значения). При этом 400 тыс. Исходных таблиц были преобразованы в 5 млн сегментов, что является достаточно сложной задачей для извлечения таблиц. И наоборот, предлагаемая модель должна научиться извлекать как релевантные сегменты, так и отрывки текста.

В ходе экспериментов авторы обнаружили, что традиционный итеративный ретривер-ридер на основе BERT работает довольно плохо (10% балл F1), и вместо этого предлагают сгруппировать связанные отрывки и сегменты таблицы вместе в объединенные блоки. . Такое раннее слияние достигается за счет привязки содержимого ячеек к текстовым упоминаниям. Сложив все полезности (синтез + трансформаторы дальнего действия + улучшенный ридер), качество повышается до 32% F1 💪. В последнем предложении статьи авторы спрашивают: можем ли мы использовать еще больше модальностей в QA ...?

… И Талмор, Йоран, Катав, Лахав и др. сразу же ответят на этот вопрос в своем рабочем здании MultiModalQA! Новый набор данных ставит цель многоэтапного кросс-модального рассуждения над текстом 📚, таблицами 📊 и изображениями 🖼. Кросс-модальный здесь означает, что по крайней мере один переход в вопросе подразумевает запрос другой модальности. В примере 👇 вопрос состоит из 3 переходов, и на каждый переход может ответить соответствующий источник в его собственной модальности. В целом, набор данных состоит из ~ 30K QA-пар, охватывающих 16 различных композиционных шаблонов (например, комбинируя ответы из одной таблицы и одного изображения, шаблон укажет, какие модальности должны быть запрошены).

👩‍🔬Эмпирическим путем авторы показывают, что базовые показатели одномодальности дают только около 18 баллов F1, в то время как объединенная модель (называемая ImplicitDecomp), которая извлекает модальности из классифицированных шаблонов, дает ~ 56 F1 📈. В текстовых и табличных модулях контроля качества используется RoBERTa-Large, а в визуальном модуле контроля качества - VILBERT-MT. Это все еще далеко от человеческого результата в 91 F1, так что обратите внимание - появился новый ненасыщенный тест 😉.

Оглядываться

🙋На сегодня все! Можем ли мы вообще наблюдать тенденцию к сокращению количества работ, связанных с SOTA? Не стесняйтесь делиться своими мыслями в комментариях!

В этом году конференции мы видели множество примеров нестандартного мышления (например, рассуждения KG, связывание сущностей, проведение параллелей с аналогичными областями), которые привели к действительно отличным результатам - и я бы посоветовал вам попробовать из того же 😉 Может быть, стоит попробовать эту необычную идею, от которой вы недавно отказались?

В следующем посте мы рассмотрим документы ACL’21!