Лоран Эль Гауи и Таня Рооста, sumup.ai.

Этот пост посвящен экстрактивному резюмированию, цель которого состоит в том, чтобы выделить несколько предложений, которые хорошо резюмируют данный документ или коллекцию документов. Контролируемые подходы стремятся узнать, какие предложения извлекать на основе большого количества примеров; их может быть сложно применить и развернуть на практике, так как они требуют больших и высококачественных обучающих наборов. Неконтролируемые методы не требуют какого-либо обучающего набора и работают только с корпусом для обобщения. Здесь мы исследуем, как неконтролируемые методы могут конкурировать с современными контролируемыми извлекающими методами реферирования.

Предпосылки. Экстрактивные подходы создают резюме, выбирая подмножество важных существующих слов, фраз или предложений непосредственно из исходного текста. По этой теме имеется обширная научная литература; недавние опросы включают (Saggio et al., 2016, Gambhir et al., 2017, Aries et al., 2019 , Papagiannopoulou et al., 2019 ).

Экстрактивное реферирование можно противопоставить абстрактному резюмированию, которое отличается от своего экстрактивного аналога тем, что оно стремится генерировать новые предложения с нуля, а не извлекать их из исходного документа (ов). Думайте о экстрактивном резюмировании как о маркере, а об абстрактном резюмировании как о писателе-человеке. Абстрактивные подходы, как правило, труднее разрабатывать, поскольку они требуют высокопроизводительных методов генерации естественного языка, что само по себе является активной областью исследований, см., Например, (Boutkan et al., 2019; Zeng et al., 2019 ) и ссылки в нем. Недавно были предложены смешанные стратегии, сочетающие экстрактивный и абстрактивный подходы, см., Например, (Peng et al., 2019).

На сегодняшний день наиболее продвинутые контролируемые чисто экстрактивные методы реферирования основаны на архитектурах нейронных сетей; SummaRunner (Nallapati et al., 2018 ), который использует рекуррентную нейронную сеть, является одной из лучших моделей, представляющих эту категорию.

Как отмечает (Gruski et al., 2018) о наборах новостных данных, очень простые (неконтролируемые) исходные параметры, такие как выбор первых нескольких предложений новостной статьи, по-прежнему могут превзойти их. продвинутые контролируемые модели. Это может быть артефактом наборов данных, обычно используемых для оценки: новостные статьи, как правило, пишутся таким образом, что первые несколько предложений отражают суть статьи, которая на языке редакции называется ведущей; но это также указывает на тот факт, что неконтролируемые подходы по-прежнему могут иметь преимущество против контролируемых подходов.

Предыдущая работа по неконтролируемому экстрактивному обобщению была сосредоточена на статистических, графических и оптимизационных подходах. Статистические методы (Saggio et al., 2016) используют в своей основе простые статистические данные, такие как оценки TF-IDF. Подходы на основе графов (Barrios et al., 2016) представляют текст как сеть, связывающую предложения, и используют методы ранжирования на основе графов для создания резюме; Методы, основанные на оптимизации (Durrett et al., 2016), используют такие методы, как разреженная оптимизация, целочисленное линейное программирование и оптимизация ограничений.

Наборы данных. Для сравнения алгоритмов реферирования лучше всего иметь наборы данных, содержащие «золотые» или справочные сводки. В нашем сравнении мы использовали как стандартные, так и менее стандартные наборы данных.

Наборы данных CNN и Daily Mail (DM), доступные здесь, содержат новостные статьи, обычно длиной 1 или 2 страницы, для которых золотые резюме, обычно несколько предложений длиной, написаны вручную.

Для этих стандартных наборов данных мы открыли здесь два новых набора данных, которые полезны, поскольку они содержат гораздо более длинные документы:

  • Набор данных Финансовые прогнозы на 2019 г. (FO) содержит 10 общедоступных отчетов о финансах ряда крупных финансовых организаций. Каждый отчет составляет от 10 до 144 страниц, при средней длине 33 страницы. Сводки по золоту как таковые отсутствуют. Мы решили определить золотые резюме как совокупность предложений или частей предложений, которые выделяются жирным шрифтом в содержании; или любые предложения, которые выделены как вставки в содержимом.
  • Набор данных Classical Literature Books (CL) содержит 11 классических книг на английском языке объемом от 53 до 1139 страниц со средней длиной 198 страниц. Золотые резюме для каждой главы книги, обычно длиной 20 страниц, берутся из WikiSummary.

Метрики оценки, используемые в поле реферирования, обычно основаны на так называемых ROUGE-оценках, которые измеряют лексическое перекрытие между извлеченными предложениями и их ссылочными аналогами, например, количество слов, используемых в ссылочном резюме. Многие авторы отмечают недостатки таких чисто лексических мер, особенно когда в справочных материалах используется язык, похожий по значению, но различающийся по выбору слов. Это побудило исследователей предложить более семантически обоснованные меры, в основном, чтобы лучше справляться с синонимами.

В статье (Ng et al., 2015) рассматривается проблема синонимии путем измерения сходства между извлеченными предложениями и ссылочными резюме с помощью так называемых встраиваний предложений; другие подходы, такие как ROUGE 2.0, основаны на фиксированном списке синонимов и / или использовании тем.

Результаты. Мы сравнили четыре разных метода:

  • Lede-3: простая базовая линия, в которой используются 3 верхних предложения.
  • Рейтинг текста: неконтролируемый метод на основе графа.
  • SummaRunner: описанный выше алгоритм нейронной сети с контролируемым извлечением резюмирования.
  • Ядро: относится к неконтролируемому извлекающему сумматору в проприетарном текстовом пакете, разработанном и коммерциализированном sumup.ai.

В таблице ниже показаны баллы, соответствующие лексической метрике ROUGE, с указанным доверительным интервалом 95%. (Показанный показатель соответствует гармоническому среднему значению отзыва и точности; его не следует путать с баллами F1, типичными для классификации; для суммирующих показателей перекрытия цифры обычно намного ниже.)

Мы заметили, что SummaRunner, кажется, предпочтительнее, когда данные содержат более короткие документы (CNN и DM, т.е. новости); но в этом случае простая базовая линия (Lede-3) работает почти так же. Столкнувшись с более объемными документами, такими как отчеты и литература, как базовый метод, так и метод на основе графиков преобладают с большим отрывом от двух других моделей. В разных наборах данных неконтролируемый метод Nucleus находится на одном уровне со сложной контролируемой моделью.

Другие лексические метрики, такие как ROUGE- *, и меры, такие как Precision, Recall и т. Д., Или использование семантических метрик ROUGE, указывают на те же выводы.