Текстовое обобщение на основе темы

Документ может содержать информацию по нескольким темам, а именно спорту и политике. Простой метод обобщения позволит представить этот документ в сжатом формате (одно резюме). Как насчет настройки, которая может учитывать темы, присутствующие в документе, для создания сводки по этой теме (резюме на основе темы)? Метод, опубликованный в статье Создание тематически ориентированных резюме с использованием нейронной сети в NAACL, 2018.

Авторы: Кундан Кришна и Баладжи Васан Шринивасан

Проблема под рукой?

Чтобы создать сводку по конкретной интересующей теме.

Название: МВФ поддерживает универсальный базовый доход в Индии, предоставляя правительству Моди политическую возможность

Статья: В преддверии бюджета Союза на 2018 г. последний годовой бюджет правительства под руководством Нарендры Моди будет представлен в феврале. Универсальный базовый доход за счет отмены субсидий на продукты питания и топливо.

- Бизнес: МВФ утверждает, что устранение «налоговых субсидий» на энергию потребует увеличения налогов на топливо и розничных цен на топливо, таких как цены на бензин, и налога в размере 400 рупий (6 долларов США) за тонну на потребление угля…

- Политика: последний годовой бюджет правительства под руководством Нарендры Моди будет представлен в феврале. Международный валютный фонд привел веские доводы в пользу того, чтобы Индия приняла фискально нейтральный универсальный базовый доход, отменив как продовольственные, так и топливные субсидии…

- Социальный: универсальный базовый доход — это форма социального обеспечения, гарантированная гражданам и перечисляемая непосредственно на их банковские счета, и обсуждается во всем мире…

Ввод и вывод

Вход

входной документ, интересующая тема

Вывод

краткое изложение входного документа, настроенного на тему

Что уже есть?

Извлекательное обобщение. Методы, использующие шаги для определения релевантных контекстов/предложений в документе, необходимых для инкапсуляции информации. Обычно это статистические методы, использующие подсчеты на основе корпуса и перекрытия между сегментами. Пара методов — TextRank и Statistical-GraphicalRank, оба варианта алгоритма PageRank. Недавно авторы использовали RNN (SummaRuNNer) для определения важных предложений в виде бинарной классификации (последовательности).
Абстрактное обобщение. С ростом популярности методов глубокого обучения установка кодировщика-декодера охватила всю аудиторию, и обобщение не стало исключением. Один из последних методов использует сеть генератора указателей (PG). Ранние методы вращались вокруг подходов, основанных на шаблонах.
Тематическое обобщение. Подходы включают два этапа: 1. Определение тем для документа. 2. Выявление предложений, релевантных теме, и присвоение им большего веса для рассмотрения при обобщении.

Зачем искать новый метод?

По большому счету, почти все методы концентрируются на создании единого резюме в целом. Методы, учитывающие тему, определяют релевантные предложения на основе особенностей уровня предложения.

Необходимо изучить прямое включение статистики на уровне предложений в структуру Seq2Seq.

Краткий обзор

В документе продвигается инфраструктура seq2seq (кодировщик-декодер) на основе генератора указателей для создания чего-то, называемого 'сеть генератора указателей с учетом темы', которая будет принимать входные данные документа и темы против какое резюме должно быть создано. Решение узкого места создания обучающего триплета для документа, темы и соответствующего резюме также изложено довольно подробно.

Что они предлагают?

В отличие от ванильного PG, предлагаемый метод использует тему в качестве подсказки в дополнение к встраиванию слов в кодировщик. Авторы используют вектор одной горячей темы для объединения с каждым встраиванием для создания последовательности. Ненулевое значение в векторе темы обозначает степень предвзятости, которая должна быть применена к созданию сводки.

Это основной вклад статьи наряду с механизмом создания набора данных (необработанный документ, тема, тематическая сводная тройка) для обобщения на основе темы.

Давайте погрузимся в суть!

Посмотрим на архитектуру:

Генерация указателя: метод создания/копирования следующего создаваемого токена. Выбор между генерацией и копированием осуществляется через распределение вероятностей. Модифицированная вероятность также обрабатывает слова вне словаря, что является положительным отличием от ванильного seq2seq.
Механизм покрытия: для решения проблемы повторяющихся токенов в сгенерированной последовательности предлагается вектор покрытия, который используется в качестве дополнительных входных данных для механизма внимания. Вектор покрытия представляет собой сумму распределений внимания по всем предыдущим временным шагам декодера, которая представляет информацию о предыдущих вниманиях.

В дополнение к сети PG авторы предлагают повышать осведомленность о теме, добавляя тему в качестве одной горячей функции вместе с встраиванием слов при кодировании документа.

Понимание процесса декодирования:

Есть несколько основных шагов, связанных с созданием слова w на временном шаге t:

Вычисление внимания: принимает входные данные из закодированных состояний (i), текущего декодированного состояния (s), механизма покрытия (с). Внимание определяет относительную важность слов во входной последовательности (вычисляется для каждого шага декодирования).

Вычисление вероятностей.Метод вычисляет две вероятности: одну для принятия решения о том, генерировать ли новое слово из словаря (p-gen), и другую, чтобы решить, какое слово генерировать из словаря ( п-словарь).

p-vocab вычисляется посредством линейного преобразования [st, ht*] с сигмовидной активацией.

Целевая функция:

Отрицательная логарифмическая вероятность целевого слова используется в качестве основной функции потерь:

Потеря покрытия для штрафа за повторяющиеся слова в сгенерированной последовательности:

С добавлением механизма покрытия модифицированное уравнение потерь выглядит следующим образом:

Какой набор данных они используют?

Новостные статьи, опубликованные на семинаре KDD Data Science + Journalism Workshop 2017, посвящены таким темам, как политика, спорт, образование и т. д.

Однако авторы применили целый набор методов для систематического создания обучающего набора данных с использованием заданных данных.

Какие числа они улучшают?

Оценка ROUGE F1: Метрика оценивает сходство между двумя документами на основе перекрытия между n-граммами. РУЖ-1, РУЖ-2, РУЖ-Л
Авторы также показывают актуальность сгенерированного резюме с использованием человеческого суждения. Задача состояла в том, чтобы выбрать лучшее резюме из заданной пары резюме (одно из предложенного метода, а другое на основе исходного уровня).

Пример выходных данных модели

* Все рисунки и уравнения либо взяты непосредственно из статей, либо адаптированы в соответствии с моим пониманием. Справочные документы включают:Перейти к сути: Обобщение с помощью сетей генераторов указателей: https://arxiv.org/pdf/1704.04368.pdf