Документ может содержать информацию по нескольким темам, а именно спорту и политике. Простой метод обобщения позволит представить этот документ в сжатом формате (одно резюме). Как насчет настройки, которая может учитывать темы, присутствующие в документе, для создания сводки по этой теме (резюме на основе темы)? Метод, опубликованный в статье Создание тематически ориентированных резюме с использованием нейронной сети в NAACL, 2018.
Авторы: Кундан Кришна и Баладжи Васан Шринивасан
Проблема под рукой?
Чтобы создать сводку по конкретной интересующей теме.
Название: МВФ поддерживает универсальный базовый доход в Индии, предоставляя правительству Моди политическую возможность
Статья: В преддверии бюджета Союза на 2018 г. последний годовой бюджет правительства под руководством Нарендры Моди будет представлен в феврале. Универсальный базовый доход за счет отмены субсидий на продукты питания и топливо.
- Бизнес: МВФ утверждает, что устранение «налоговых субсидий» на энергию потребует увеличения налогов на топливо и розничных цен на топливо, таких как цены на бензин, и налога в размере 400 рупий (6 долларов США) за тонну на потребление угля…
- Политика: последний годовой бюджет правительства под руководством Нарендры Моди будет представлен в феврале. Международный валютный фонд привел веские доводы в пользу того, чтобы Индия приняла фискально нейтральный универсальный базовый доход, отменив как продовольственные, так и топливные субсидии…
- Социальный: универсальный базовый доход — это форма социального обеспечения, гарантированная гражданам и перечисляемая непосредственно на их банковские счета, и обсуждается во всем мире…
Ввод и вывод
Вход
- входной документ, интересующая тема
Вывод
- краткое изложение входного документа, настроенного на тему
Что уже есть?
- Извлекательное обобщение. Методы, использующие шаги для определения релевантных контекстов/предложений в документе, необходимых для инкапсуляции информации. Обычно это статистические методы, использующие подсчеты на основе корпуса и перекрытия между сегментами. Пара методов — TextRank и Statistical-GraphicalRank, оба варианта алгоритма PageRank. Недавно авторы использовали RNN (SummaRuNNer) для определения важных предложений в виде бинарной классификации (последовательности).
- Абстрактное обобщение. С ростом популярности методов глубокого обучения установка кодировщика-декодера охватила всю аудиторию, и обобщение не стало исключением. Один из последних методов использует сеть генератора указателей (PG). Ранние методы вращались вокруг подходов, основанных на шаблонах.
- Тематическое обобщение. Подходы включают два этапа: 1. Определение тем для документа. 2. Выявление предложений, релевантных теме, и присвоение им большего веса для рассмотрения при обобщении.
Зачем искать новый метод?
По большому счету, почти все методы концентрируются на создании единого резюме в целом. Методы, учитывающие тему, определяют релевантные предложения на основе особенностей уровня предложения.
Необходимо изучить прямое включение статистики на уровне предложений в структуру Seq2Seq.
Краткий обзор
В документе продвигается инфраструктура seq2seq (кодировщик-декодер) на основе генератора указателей для создания чего-то, называемого 'сеть генератора указателей с учетом темы', которая будет принимать входные данные документа и темы против какое резюме должно быть создано. Решение узкого места создания обучающего триплета для документа, темы и соответствующего резюме также изложено довольно подробно.
Что они предлагают?
В отличие от ванильного PG, предлагаемый метод использует тему в качестве подсказки в дополнение к встраиванию слов в кодировщик. Авторы используют вектор одной горячей темы для объединения с каждым встраиванием для создания последовательности. Ненулевое значение в векторе темы обозначает степень предвзятости, которая должна быть применена к созданию сводки.
Это основной вклад статьи наряду с механизмом создания набора данных (необработанный документ, тема, тематическая сводная тройка) для обобщения на основе темы.
Давайте погрузимся в суть!
Посмотрим на архитектуру:
- Генерация указателя: метод создания/копирования следующего создаваемого токена. Выбор между генерацией и копированием осуществляется через распределение вероятностей. Модифицированная вероятность также обрабатывает слова вне словаря, что является положительным отличием от ванильного seq2seq.
- Механизм покрытия: для решения проблемы повторяющихся токенов в сгенерированной последовательности предлагается вектор покрытия, который используется в качестве дополнительных входных данных для механизма внимания. Вектор покрытия представляет собой сумму распределений внимания по всем предыдущим временным шагам декодера, которая представляет информацию о предыдущих вниманиях.
В дополнение к сети PG авторы предлагают повышать осведомленность о теме, добавляя тему в качестве одной горячей функции вместе с встраиванием слов при кодировании документа.
Понимание процесса декодирования:
Есть несколько основных шагов, связанных с созданием слова w на временном шаге t:
- Вычисление внимания: принимает входные данные из закодированных состояний (i), текущего декодированного состояния (s), механизма покрытия (с). Внимание определяет относительную важность слов во входной последовательности (вычисляется для каждого шага декодирования).
- Вычисление вероятностей.Метод вычисляет две вероятности: одну для принятия решения о том, генерировать ли новое слово из словаря (p-gen), и другую, чтобы решить, какое слово генерировать из словаря ( п-словарь).
p-vocab вычисляется посредством линейного преобразования [st, ht*] с сигмовидной активацией.
Целевая функция:
Отрицательная логарифмическая вероятность целевого слова используется в качестве основной функции потерь:
Потеря покрытия для штрафа за повторяющиеся слова в сгенерированной последовательности:
С добавлением механизма покрытия модифицированное уравнение потерь выглядит следующим образом:
Какой набор данных они используют?
Новостные статьи, опубликованные на семинаре KDD Data Science + Journalism Workshop 2017, посвящены таким темам, как политика, спорт, образование и т. д.
Однако авторы применили целый набор методов для систематического создания обучающего набора данных с использованием заданных данных.
Какие числа они улучшают?
- Оценка ROUGE F1: Метрика оценивает сходство между двумя документами на основе перекрытия между n-граммами. РУЖ-1, РУЖ-2, РУЖ-Л
- Авторы также показывают актуальность сгенерированного резюме с использованием человеческого суждения. Задача состояла в том, чтобы выбрать лучшее резюме из заданной пары резюме (одно из предложенного метода, а другое на основе исходного уровня).
Пример выходных данных модели
- * Все рисунки и уравнения либо взяты непосредственно из статей, либо адаптированы в соответствии с моим пониманием. Справочные документы включают:Перейти к сути: Обобщение с помощью сетей генераторов указателей: https://arxiv.org/pdf/1704.04368.pdf