Обобщение по смежным документам: новый способ извлечения информации

Сегодняшние поисковые системы очень хорошо умеют находить релевантную информацию, но на самом деле нахождение этой информации - это всего лишь первый шаг: ее извлечение, ее синтез и ее применение для создания большего количества осознанные убеждения составляют значительную часть пути приобретения знаний.

Логическая агрегация и Деревья убеждений - это попытка Консидра на стадиях синтеза и построения убеждений. В этой статье рассматривается этап дистилляции.

Как лучше всего извлечь мировые знания?

Этот грандиозный вопрос действительно лежит в основе миссии Консидра. Речь идет о том, чтобы выяснить, что самое важное из любого источника информации, и выразить это в кратком формате. Вот еще несколько способов сформулировать этот вопрос для получения любой информации. Какие основные выводы? Что стоит учитывать при формировании моей веры? Что такое TLDR? Какое резюме?

Существующие подходы к обобщению

Вообще говоря, существует два общих подхода к автоматическому реферированию: e xtractive и bstractiv e. Для более полного взгляда на подходы экстрактивного реферирования см. Эту замечательную статью Sciforce на эту тему. Я позаимствую авторские определения для каждой формы обобщения здесь:

Экстрактивное реферирование означает определение важных частей текста и их дословную генерацию с получением подмножества предложений из исходного текста; в то время как абстрактное обобщение воспроизводит важный материал по-новому после интерпретации и изучения текста с использованием передовых методов естественного языка для создания нового более короткого текста, который передает наиболее важную информацию из исходного.

Очевидно, что абстрактное реферирование более продвинуто и ближе к человеческому толкованию. Хотя он имеет больший потенциал (и, как правило, более интересен для исследователей и разработчиков), до сих пор более традиционные методы показали лучшие результаты.

Итак, в общем, экстрактивные подходы заключаются в нахождении наиболее репрезентативных предложений в документе и непосредственном возврате этих предложений. Абстрактивные подходы пытаются заставить алгоритмы фактически писать новые предложения для резюмирования документа.

Воображаемый идеал для обобщения

Очень полезно подумать о том, как может выглядеть абсолютный идеал для извлечения знаний. Скажем, мы хотим выделить всю книгу до ее наиболее важных идей. На самом деле, есть очень крутые компании, которые нанимают для этой работы команды людей. Блинкист - яркий тому пример.

Представьте, что вы сотрудник Blinkist. Что позволило бы вам составить наилучшее резюме основных выводов из книги Экономичный стартап Эрика Рейса.

Получите опыт: вы можете провести всю жизнь, читая существующую литературу о стартапах, получая большой непосредственный опыт работы со стартапами и накапливая глубокие знания в области предпринимательства. (Помните, что мы представляем абсолютный идеал.)
Определите, что самое важное: отлично. Теперь, когда вы потратили десятилетия на усердную работу, приобретая опыт в данной области, читайте внимательно всю книгу. Затем определите, в чем уникальность работы; что самое главное; и что необходимо учитывать.
Напишите краткое изложение: наконец, вы готовы написать набор тщательно сформулированных предложений, в которых перефразируются основные выводы из книги.

Потратив всю свою жизнь на создание максимально возможного резюме для бережливого стартапа, теперь вы можете с радостью выйти на пенсию и оглянуться на хорошо проведенную жизнь. :)

Обобщение по смежным документам

Очевидно, что существующие экстрактивный и абстрактивный подходы к реферированию далеко не приблизились к идеалу. Прочитав приведенный выше пример, вы можете подумать - ну, конечно, это совершенно нереалистичное ожидание для обобщения - никто не собирается тратить свою жизнь на подготовку к написанию хорошего резюме!

Но что, если бы я сказал вам, что наш подход - Резюмирование по смежному документу - похож на использование эксперта:

потратить всю жизнь на поиск контекста в данной дисциплине
прочитать полный текст документа или любой источник информации и определить наиболее важные части
напишите краткое резюме, отражающее ключевые идеи

Довольно здорово, правда? Что ж, наша модель не является таким экспертом, но она определяет результат работы, которую эксперт (или многие) уже проделал. Подумайте об этом: когда писатель цитирует кого-то еще, он (в идеале) хорошо понимает контекст своей области; внимательно прочитали рассматриваемый документ и большую часть многих относящихся к нему документов; они проделали работу по выяснению того, что является наиболее важным в этом документе; а затем они пишут красивое краткое изложение ключевой идеи в предложениях, где они цитируют ее в своей собственной работе.

Резюме по смежному документу применимо как к академическому, так и к неакадемическому письму. Хотя явная структура цитирования академических документов делает применение нашего подхода довольно простым, в Considdr мы фактически сосредоточились на применении нашего подхода в первую очередь к неакадемическому материалу.

Другой способ думать о суммировании по смежному документу заключается в том, что он пытается извлекать абстрактные предложения из смежных документов. В Considdr мы назвали этот новый подход к извлечению инсайтов «суммированием по смежному документу», потому что мы этого не делаем. посмотрите на документ A, чтобы создать резюме для документа A, но вместо этого мы смотрим на документы B, C и D, которые цитируют документ A, чтобы найти одно или несколько предложений для понимания (места, где эти авторы извлекли ключевые моменты из документа A ).

В конце концов, суммирование по смежному документу на самом деле просто использует уже проделанную (во многих случаях столетиями!) Работу по извлечению знаний, но она фрагментирована во многих документах. Если вы хотите проверить это, мы выпустили нашу модель понимания в виде пакета Python. Наш insight_extractor возвращает абстрактное значение заданного входного предложения и очень прост для интеграции в любые проекты, которые могут захотеть использовать наш подход Суммирование по смежным документам.

Расширения суммирования по смежным документам: понимание кластеризации

Есть много интересных расширений нашего подхода к реферированию. Я расскажу только об одном большом.

Поскольку мы можем использовать сразу несколько документов, нам легче выявлять необычные вариации цитирования и понимать, какие идеи являются наиболее важными или наиболее цитируемыми. Для этого мы создали в Considdr вторую модель. Он группирует предложения, чтобы понять, когда несколько авторов ссылаются на одно и то же. Для этого мы настроили модель SoTA, соответствующую парам вопросов Quora (см .: https://www.kaggle.com/c/quora-question-pairs).

К сожалению, эта модель опиралась на массивную графическую базу данных Considdr, содержащую более 3 миллионов извлеченных идей, которые мы больше не могли поддерживать после закрытия компании, поэтому она не включена в упомянутый выше пакет.