Основанный на семантическом синтаксическом анализе подход к связыванию отношений для ответов на вопросы в базе знаний

Нандана Михиндукуласоория и Ибрагим Абдельазиз

Ответы на вопросы базы знаний (KBQA) стали важной задачей обработки естественного языка для многих реальных приложений. Извлечение и связывание отношений (REL) - это важная подзадача KBQA, которая включает в себя идентификацию отношений в вопросах естественного языка и их привязку к их эквивалентным отношениям в базовой базе знаний. Эти отношения затем используются для построения запроса для получения ответов на вопросы. Например, учитывая вопрос на естественном языке «Кто играет главную роль в испанских фильмах Бенисио дель Торо?», REL должен определить 3 отношения; «Dbo: продюсер», «dbo: starring» и «dbo: country» при использовании DBpedia в качестве базовой базы знаний. REL, однако, сталкивается с несколькими проблемами, такими как 1) большое количество отношений-кандидатов в базах знаний, таких как DBpedia или Wikidata, 2) обширный лексический пробел между поверхностными отношениями в тексте и их эквивалентом в базе знаний. Например, в тексте вопроса выше явно не упоминается какая-либо ссылка на связь «dbo: country» и 3) наличие нескольких отношений как с известными, так и с неизвестными сущностями как субъектами и объектами.

Для решения этих проблем мы предлагаем SLING (Semantic LINkinG), подход на основе удаленного контроля, который использует семантический синтаксический анализ, такой как представление абстрактного смысла (AMR) для извлечения и связывания отношений. SLING - это общая структура, объединяющая различные подходы к REL, основанные на статистическом выравнивании предикатов, встраивании слов и нейронных сетях.

Обзор SLING с помощью показан на рисунке ниже: (a) показывает ориентированный на процесс вид, а (b) иллюстрирует пример. Входные данные для SLING - это вопрос на естественном языке вместе с соответствующим ему представлением AMR. Результатом является ранжированный список отношений, соответствующих каждой паре субъект-объект в предложении. Входные данные обрабатываются компонентами в генерации метаданных вопросов для извлечения троек AMR (пары субъект-объект и их предикаты AMR) и создания метаданных, соответствующих каждому из них. Каждый модуль в Связке отношений создает ранжированный список отношений базы знаний с оценками для обогащенной метаданными тройки AMR. Они объединяются для получения требуемого результата.

SLING отличается от предыдущих подходов по нескольким аспектам. Это первый подход к использованию семантического анализа AMR текста для REL в KBQA. Существующие подходы использовали только синтаксический анализ, например анализ зависимости вопроса. Однако семантический синтаксический анализ с использованием AMR дает несколько преимуществ, таких как (1) AMR обнаруживает именованные сущности и сопоставляет их с предопределенными типами сущностей (нормализованными), которые формируют аргументы отношений, которые должны быть сопоставлены с KB, (2) AMR не только определяет отношения в тексте, но и нормализует их с помощью фреймов PropBank; (3) Это уменьшает неоднозначность естественного языка, преобразовывая фразы отношения в их соответствующий смысл и (4) для вопросов, специальный узел amr-unknown используется для представления заполнителя для ответа на вопрос. Эти характеристики AMR помогают уменьшить лексический пробел за счет сокращения различных формулировок отношений к его набору предикатов. Кроме того, они также помогают автоматически определять структуру взаимосвязей входящего вопроса и извлекать все взаимосвязи, полезные для формирования запроса SPARQL, тем самым решая проблему извлечения нескольких взаимосвязей из текста вопросов.

SLING сочетает в себе модули на основе правил и глубокого обучения для захвата дополнительных сигналов, таких как лингвистические подсказки, богатое семантическое представление и информация из базы знаний. Он использует дистанционно контролируемую технику для генерации обучающих данных из заданной базы знаний и текстового корпуса, не требуя каких-либо обучающих данных для конкретной задачи. Эти обучающие данные используются несколькими модулями. Во-первых, они используются для создания сопоставлений между текстом, отношениями AMR и KB. Такие сопоставления используются для генерации выравнивания между предикатами PropBank, используемыми в отношениях AMR и KB, с использованием статистики выравнивания. Точно так же данные удаленного наблюдения также используются для обучения моделей классификации отношений на основе Deep Learning.

Эти новые методы достигли высочайшего уровня производительности на двух наборах данных KBQA; Ответы на вопросы по связанным данным (QALD-7 и 9) и большой комплексный набор данных с ответами на вопросы (LC-QuAD 1.0). В частности, SLING привел к улучшению оценки F1 на 5–24% по сравнению с существующими подходами. Дополнительные сведения о SLING и других экспериментальных оценках см. В [1].

[1] Михиндукуласоория, Н., Россиелло, Г., Капанипати, П., Абдельазиз, И., Равишанкар, С., Ю., М., Глиоззо, А., Рукос, С., и Грей, А., 2020. Использование семантического анализа для установления связи между базами знаний. Международная конференция по семантической паутине (ISWC), 2020.

Основанный на семантическом синтаксическом анализе подход к связыванию отношений для ответов на вопросы в базе знаний

Вопросы по теме