Переоценка методов завершения графа знаний

Несмотря на свой большой размер, графы знаний далеки от полноты. Горячей темой стали методы завершения графа знаний, направленные на добавление недостающих фактов в граф знаний. Среди них модели обучения представления графа знаний или модели встраивания активно изучаются, и быстро предлагаются новые модели встраивания. Мы провели экспериментальное исследование для оценки этих методов, и наша статья появится в SIGMOD 2020. Вкратце, вот результаты, которые мы получили:

Избыточность данных и утечка тестовых данных в широко используемых наборах эталонных данных вызвали завышение точности в диапазоне 19% -175% для многих моделей.
Мы определили декартовы отношения произведения, которые также приводят к нереалистичной оценке.
Многие тестовые примеры (например, 70% в одном наборе данных), используемые для оценки моделей, нереалистичны и не существуют в реальных сценариях.

Графики знаний

Популярность графов знаний быстро растет. Они хранят реальные факты в виде троек. Например, факт, что Билл Гейтс основал Microsoft, будет указан как (Bill Gates, founded, Microsoft). Такие компании и корпорации, как Google, Microsoft, LinkedIn, Siemens, Thomson Reuters и т. Д., Используют графы знаний для управления и простой навигации по сильно связанным многосвязным данным.

Цикл шумихи Gartner о новых технологиях в 2019 году также выделил графы знаний как одну из новых технологий, оказывающих значительное влияние на бизнес, общество и людей в ближайшие 5-10 лет. Беглый взгляд на крупные конференции, такие как ACL 2019, NeurIPS 2019 и AAAI 2020, также показывает рост исследований, связанных с графами знаний.

О чем наша газета?

В нашей статье исследуется истинная эффективность методов завершения графа знаний и дефекты, которые существуют в широко используемых наборах данных эталонных тестов FB15k (подмножество Freebase) и WN18 (извлечено из WordNet), а также в недавнем наборе данных. ЯГО3–10 (подмножество ЯГО3). Эти наборы данных, которые использовались для обучения и оценки многих моделей внедрения, содержат большое количество обратных и повторяющихся троек. В нашей статье показано, как избыточность данных и тестовая утечка, существующие в этих наборах данных, влияют на модели встраивания. Еще одна проблема, которую мы рассмотрели, - это наличие декартовых отношений произведений в FB15k. Об этих отношениях я расскажу в конце поста.

Суть в том, что все упомянутые проблемы, существующие с наборами данных, вызывают нереалистичное завышение точности моделей. Более того, обучение модели завершения графа знаний с использованием этих наборов данных является формой переобучения, и изученная модель оптимизирована для вышеупомянутых троек, которые не могут быть обобщены для реалистичных настроек.

Встраивание моделей и наборов данных, используемых для их обучения

Встраиваемые модели изучают многомерные представления h, r и t тройки (головная сущность (субъект), отношение, хвостовая сущность (объект)) в графе знаний. Тройки будут обозначаться как(h,r,t) в оставшейся части этого поста.

Как мы знаем, наборы данных играют важную роль в обучении модели машинного обучения. В случае моделей встраивания графов знаний наборы данных, которые широко использовались для их обучения и тестирования, имеют разные проблемы. В результате у нас есть модели, которые не будут эффективными при использовании для завершения реальных графов знаний.

FB15k и FB15k-237

FB15k содержит множество обратных троек. Он включает в себя множество пар (h,r,t) и (h,r⁻¹,t), где r и r⁻¹ являются обратными отношениями:

(avatar, film/directed_by, James Cameron)

(James Cameron, director/film, Avatar)

Freebase фактически обозначает обратные отношения, явно используя специальное отношение reverse_property:

(film/directed_by, reverse_property, director/film)

Около 70% троек в обучающем наборе FB15k образуют обратные пары, а также для 70% троек в тестовом наборе FB15k их обратные тройки существуют в обучающем наборе.

Эти характеристики данных предполагают, что модели внедрения были смещены в сторону изучения обратных отношений для прогнозирования связи. В частности, задача может в значительной степени сводиться к выводу, образуют ли два отношения r₁ и r₂ обратную пару. Учитывая обилие обратных троек в наборе данных, эта цель потенциально может быть достигнута без использования подхода машинного обучения, основанного на сложных встраиваниях сущностей и отношений. Вместо этого мы можем вывести простые правила формы (h,r₁,t)⇒ (t,r₂,h) , используя статистику троек в наборе данных. Фактически, мы создали такую простую модель, которая достигла 71,6% для FB15k с использованием FHits@1↑, стандартной меры точности для встраиваемых моделей (чем выше, тем лучше). Согласно нашим результатам, лучшая модель встраивания имеет FHits@1↑ 73,8% на FB15K.

сценарий прогнозирования ссылок с такими данными не существует в реальном мире.

Важно отметить, что сценарий прогнозирования ссылок с учетом таких данных не существует в реальном мире вообще. Что касается FB15k, то избыточные обратные отношения, исходящие от Freebase, были просто искусственно созданы. Новые факты всегда добавлялись во Freebase в виде пары обратных троек, явно обозначенных отношением reverse_property. Для таких внутренне обратных отношений, которые всегда идут парами, нам никогда не нужно предсказывать тройку, пока ее обратное уже есть в графе знаний. Таким образом, обучение модели завершения графа знаний с использованием FB15k является формой переобучения, поскольку изученная модель оптимизирована для обратных троек, которые не могут быть обобщены для реалистичных настроек.

Тутанова и Чен отметили вышеупомянутую проблему с FB15k и создали FB1k-237, удалив такую избыточность. Чтобы изучить влияние избыточных данных, доступных в FB15k, мы провели несколько экспериментов, чтобы сравнить результаты нескольких моделей встраивания на FB15k и FB15k-237, а в следующей таблице показаны результаты для некоторых методов с использованием различных популярных показателей. Стоит отметить, что по определению более высокие Hits@1↑ (FHits@1↑), Hits@10↑ (FHits@10↑) и MRR↑ (FMRR↑) и более низкие MR↓ (FMR↓) указывают на лучшую точность.

Общее наблюдение из наших экспериментов таково:

После удаления обратных связей производительность всех методов значительно ухудшается. Как вы можете видеть на следующей радарной диаграмме, производительность встраиваемых моделей значительно снизилась на FB15k-237. Этот результат подтверждает, что методы, основанные на внедрении, могут хорошо работать только с обратными отношениями. Однако простой подход, основанный на обнаружении обратных отношений, может обеспечить сопоставимую или даже лучшую точность.

Многие последователи TransE (одной из первых моделей встраивания) должны были значительно превзойти ее. Это подтверждено результатами нашего эксперимента на FB15k. Однако на FB15k-237 их маржа по сравнению с TransE стала намного меньше. Мы предполагаем, что эти модели улучшили результаты в основном для обратных и повторяющихся троек, и, следовательно, после удаления этих троек они не показывают явного преимущества. Эту гипотезу можно проверить, обнаружив, что большинство тестовых троек, на которых эти модели превзошли TransE, имеют обратные или повторяющиеся тройки в обучающем наборе.

WN18 и WN18RR

WN18 также страдает от утечки данных, поскольку 14 из 18 отношений образуют 7 пар обратных отношений, например, (europe, has_part, republic_of_estonia) и (republic_of_estonia, part_of, europe) - это две обратные тройки в обратных отношениях has_part и part_of. Также существует 3 взаимно-взаимных (симметричных) отношения: verb_group, similar_to, derivationally_related_form. Около 93% троек в обучающей выборке являются такими тройками, а для 93% троек в тестовой выборке их обратные тройки существуют в обучающей выборке.

Чтобы удалить обратные отношения WN18, Деттмерс и др. создал WN18RR, сохранив только одно отношение из каждой пары обратных отношений. Мы сравнили результаты моделей встраивания на WN18 и WN18RR и пришли к такому же выводу, что и на FB15k и FB15k-237.

YGO3–10 и YAGO3–10-DR

YAGO3–10 имеет 37 отношений, и два отношения isAffiliatedTo (r1) и playsFor (r2) составляют 35% и 30% его обучающих троек соответственно. Хотя r1 семантически относится к r2 в реальном мире, они выглядят как повторяющиеся отношения в этом конкретном наборе данных, поскольку их пары (субъект, объект) существенно перекрываются. Основываясь на наших экспериментах, различные модели достигли гораздо более сильных результатов на r1 и r2, чем на других отношениях. Мы создали другой набор данных под названием YAGO3–10-DR, удалив избыточность из YAGO3–10. По этим наборам данных мы пришли к тому же выводу, что и по другим наборам данных.

Декартовы отношения продуктов

Мы также обнаружили еще одну проблему (называемую декартовыми производными отношениями) с FB15k, которая делает существующие показатели производительности встраиваемых моделей нереалистичными. Для декартова отношения пары субъект-объект из всех троек экземпляров отношения образуют декартово произведение. Другими словами, существует набор субъектов и набор объектов, и существует отношение каждого субъекта в первом наборе к каждому объекту во втором наборе. Одним из примеров декартова отношения произведения является климат, поскольку (a, climate, b) является допустимой тройкой для всех возможных города a и месяца b. Другой пример - позиция, поскольку каждая команда в определенной профессиональной спортивной лиге имеет одинаковый набор позиций. Таким образом, проблема прогнозирования связей для таких отношений сводится к прогнозированию того, будет ли в городе климат, скажем, в январе, или у команды НФЛ будет позиция защитника. Существование этих отношений также нереалистично увеличивает точность прогнозирования связи модели. Более того, такие задачи прогнозирования не очень значимы. Как и то, что мы наблюдали для обратных отношений, существование декартовых отношений произведений в FB15k является довольно искусственным. Фактически, 60% из них связаны со специальными «узлами-посредниками». Даже если мы хотим выполнить прогнозирование ссылок на декартовых отношениях продуктов, более простой подход может быть более эффективным, чем изучение сложных моделей встраивания. Мы реализовали простой метод для поиска декартовых отношений продуктов и выполнения для них предсказания ссылок. Наши эксперименты с 9 декартовыми отношениями произведений в FB15k дали среднее значение FHits @ 10 ↑ 98,3% с использованием этого метода, что выше, чем 96,3% FHits @ 10 ↑ TransE для этих отношений.

Подробнее об этом исследовании и его результатах читайте в статье. Все коды, сценарии экспериментов, наборы данных и результаты находятся в публичном репозитории.