Документ может содержать информацию по нескольким темам, а именно спорту и политике. Простой метод обобщения позволит представить этот документ в сжатом формате (одно резюме). Как насчет настройки, которая может учитывать темы, присутствующие в документе, для создания сводки по этой теме (резюме на основе темы)? Метод, опубликованный в статье Создание тематически ориентированных резюме с использованием нейронной сети в NAACL, 2018.

Авторы: Кундан Кришна и Баладжи Васан Шринивасан

Проблема под рукой?

Чтобы создать сводку по конкретной интересующей теме.

Название: МВФ поддерживает универсальный базовый доход в Индии, предоставляя правительству Моди политическую возможность

Статья: В преддверии бюджета Союза на 2018 г. последний годовой бюджет правительства под руководством Нарендры Моди будет представлен в феврале. Универсальный базовый доход за счет отмены субсидий на продукты питания и топливо.

- Бизнес: МВФ утверждает, что устранение «налоговых субсидий» на энергию потребует увеличения налогов на топливо и розничных цен на топливо, таких как цены на бензин, и налога в размере 400 рупий (6 долларов США) за тонну на потребление угля…

- Политика: последний годовой бюджет правительства под руководством Нарендры Моди будет представлен в феврале. Международный валютный фонд привел веские доводы в пользу того, чтобы Индия приняла фискально нейтральный универсальный базовый доход, отменив как продовольственные, так и топливные субсидии…

- Социальный: универсальный базовый доход — это форма социального обеспечения, гарантированная гражданам и перечисляемая непосредственно на их банковские счета, и обсуждается во всем мире…

Ввод и вывод

Вход

  • входной документ, интересующая тема

Вывод

  • краткое изложение входного документа, настроенного на тему

Что уже есть?

  • Извлекательное обобщение. Методы, использующие шаги для определения релевантных контекстов/предложений в документе, необходимых для инкапсуляции информации. Обычно это статистические методы, использующие подсчеты на основе корпуса и перекрытия между сегментами. Пара методов — TextRank и Statistical-GraphicalRank, оба варианта алгоритма PageRank. Недавно авторы использовали RNN (SummaRuNNer) для определения важных предложений в виде бинарной классификации (последовательности).
  • Абстрактное обобщение. С ростом популярности методов глубокого обучения установка кодировщика-декодера охватила всю аудиторию, и обобщение не стало исключением. Один из последних методов использует сеть генератора указателей (PG). Ранние методы вращались вокруг подходов, основанных на шаблонах.
  • Тематическое обобщение. Подходы включают два этапа: 1. Определение тем для документа. 2. Выявление предложений, релевантных теме, и присвоение им большего веса для рассмотрения при обобщении.

Зачем искать новый метод?

По большому счету, почти все методы концентрируются на создании единого резюме в целом. Методы, учитывающие тему, определяют релевантные предложения на основе особенностей уровня предложения.

Необходимо изучить прямое включение статистики на уровне предложений в структуру Seq2Seq.

Краткий обзор

В документе продвигается инфраструктура seq2seq (кодировщик-декодер) на основе генератора указателей для создания чего-то, называемого 'сеть генератора указателей с учетом темы', которая будет принимать входные данные документа и темы против какое резюме должно быть создано. Решение узкого места создания обучающего триплета для документа, темы и соответствующего резюме также изложено довольно подробно.

Что они предлагают?

В отличие от ванильного PG, предлагаемый метод использует тему в качестве подсказки в дополнение к встраиванию слов в кодировщик. Авторы используют вектор одной горячей темы для объединения с каждым встраиванием для создания последовательности. Ненулевое значение в векторе темы обозначает степень предвзятости, которая должна быть применена к созданию сводки.

Это основной вклад статьи наряду с механизмом создания набора данных (необработанный документ, тема, тематическая сводная тройка) для обобщения на основе темы.

Давайте погрузимся в суть!

Посмотрим на архитектуру:

  • Генерация указателя: метод создания/копирования следующего создаваемого токена. Выбор между генерацией и копированием осуществляется через распределение вероятностей. Модифицированная вероятность также обрабатывает слова вне словаря, что является положительным отличием от ванильного seq2seq.
  • Механизм покрытия: для решения проблемы повторяющихся токенов в сгенерированной последовательности предлагается вектор покрытия, который используется в качестве дополнительных входных данных для механизма внимания. Вектор покрытия представляет собой сумму распределений внимания по всем предыдущим временным шагам декодера, которая представляет информацию о предыдущих вниманиях.

В дополнение к сети PG авторы предлагают повышать осведомленность о теме, добавляя тему в качестве одной горячей функции вместе с встраиванием слов при кодировании документа.

Понимание процесса декодирования:

Есть несколько основных шагов, связанных с созданием слова w на временном шаге t:

  • Вычисление внимания: принимает входные данные из закодированных состояний (i), текущего декодированного состояния (s), механизма покрытия (с). Внимание определяет относительную важность слов во входной последовательности (вычисляется для каждого шага декодирования).

  • Вычисление вероятностей.Метод вычисляет две вероятности: одну для принятия решения о том, генерировать ли новое слово из словаря (p-gen), и другую, чтобы решить, какое слово генерировать из словаря ( п-словарь).

p-vocab вычисляется посредством линейного преобразования [st, ht*] с сигмовидной активацией.

Целевая функция:

Отрицательная логарифмическая вероятность целевого слова используется в качестве основной функции потерь:

Потеря покрытия для штрафа за повторяющиеся слова в сгенерированной последовательности:

С добавлением механизма покрытия модифицированное уравнение потерь выглядит следующим образом:

Какой набор данных они используют?

Новостные статьи, опубликованные на семинаре KDD Data Science + Journalism Workshop 2017, посвящены таким темам, как политика, спорт, образование и т. д.

Однако авторы применили целый набор методов для систематического создания обучающего набора данных с использованием заданных данных.

Какие числа они улучшают?

  • Оценка ROUGE F1: Метрика оценивает сходство между двумя документами на основе перекрытия между n-граммами. РУЖ-1, РУЖ-2, РУЖ-Л
  • Авторы также показывают актуальность сгенерированного резюме с использованием человеческого суждения. Задача состояла в том, чтобы выбрать лучшее резюме из заданной пары резюме (одно из предложенного метода, а другое на основе исходного уровня).

Пример выходных данных модели

  • * Все рисунки и уравнения либо взяты непосредственно из статей, либо адаптированы в соответствии с моим пониманием. Справочные документы включают:Перейти к сути: Обобщение с помощью сетей генераторов указателей: https://arxiv.org/pdf/1704.04368.pdf