Системы прогнозирования типов от IBM устраняют необходимость в ручных аннотациях к графам знаний

Графы знаний (KG) — это графы, используемые для накопления и передачи реальных знаний. Узлы KG собирают информацию об интересующих объектах (таких как люди, места или события) в данном домене или задаче, а ребра представляют связи между ними. Чтобы предоставить жизненно важную информацию для связанных задач, таких как ответы на вопросы базы знаний (KBQA), использовались различные семантические веб-технологии для представления KG с явной семантикой, определяя тип для каждого узла. Например, узел «Тайлор Свифт» можно отнести к типу «популярный певец». Хотя прогнозирование информации о типе KG имеет решающее значение для решения связанных с KG и последующих задач, в большинстве существующих работ в этой области используются контролируемые решения, которые работают на системах относительно малого и среднего размера.

В статье Системы предсказания типов исследователи IBM представляют две системы для предсказания информации о типах с любой степенью детализации и без аннотаций. Их модуль TypeSuggest представляет собой неконтролируемую систему, предназначенную для генерации типов для набора исходных терминов запроса, введенных пользователем, в то время как модуль прогнозирования типа ответа предсказывает правильный тип ответа на заданные пользователем вопросы.

TypeSuggest использует предопределенную систему типов (TS), такую как DBPedia или Wikidata, в качестве источника потенциальных типов. Учитывая набор начальных терминов Q в качестве входных данных, TypeSuggest сгенерирует ранжированный список соответствующих типов в качестве выходных данных. Метод использует следующие шаги:

Связывание сущностей: первый шаг связывает термины в Q с таксономией в TS. Это делается путем изучения сходства меток сущностей в TS, из которого команда может получить список исходных терминов (LS), которые связаны с соответствующей сущностью в TS.
Исходное расширение: на втором этапе используется предварительно обученный Word2Vec для расширения начальных терминов LS, если LS меньше минимального количества начальных терминов K. Для этого команда идентифицирует наиболее похожий термин y, который ссылается на действительный объект в TS, и они продолжают добавлять y к TS для каждой итерации, пока LS не станет равным K.
Идентификация типа: последний шаг определяет типы на основе связанных начальных терминов. Команда ранжирует типы, используя функцию, подобную tf-idf (частота термина — обратная частота документа, метрика, отражающая, насколько важно слово для документа в коллекции или корпусе), и возвращает ранжированный список в качестве вывода TypeSuggest. модуль.

Исследователи построили свою модель прогнозирования типа ответа на основе этих выходных данных TypeSuggest. Прогнозирование типа ответа состоит из трех шагов: подготовка вложений типов из словаря типов T, кодирование входных вопросов qi в соответствующие им вложения вопросов ~qi и построение простой структуры обучения, которая использует ~qi и T в качестве входных данных и создает список ранжированных типов T_i. как вывод.

Команда подробно описывает две предлагаемые системы, начиная с этапа приема данных, затем следует этап предварительной обработки и заканчивая обучающим устройством на основе нейронной сети для их модуля прогнозирования типа ответа. Они также демонстрируют, как обе системы работают без ручных аннотаций, что они считают наиболее привлекательным моментом исследования, поскольку это делает систему применимой «как есть» в самых разных областях.

Статья Системы прогнозирования типов размещена на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить ни одной новости или научного открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.

Системы прогнозирования типов от IBM устраняют необходимость в ручных аннотациях к графам знаний

Вопросы по теме