Проблемы с существующими моделями обобщения абстрактного текста

В этом блоге я попытался резюмировать статью Фактическая непротиворечивость обобщения абстрактного текста на уровне сущностей в соответствии с моим пониманием. Не стесняйтесь комментировать то же самое!

Постановка задачи

Хорошо известно, что существующие модели реферирования абстрактного текста имеют тенденцию генерировать ложную информацию. Теперь это может происходить либо на уровне объекта (создаются дополнительные объекты), либо на уровне отношения (контекст, в котором возникают объекты, неправильно сгенерирован). Этот документ количественно оценивает согласованность фактов только на уровне сущности и оставляет согласованность на уровне отношений для будущей работы. Они предлагают метрику для количественной оценки таких галлюцинаций, создаваемых моделью, а также предлагают несколько мер и схем обучения, которые могут помочь модели работать лучше и генерировать фактически верные сводки на уровне сущности.

Предлагаемый метод

Во-первых, в документе представлены 3 показателя для количественной оценки согласованности на уровне сущностей в сгенерированном резюме. Подробности обсуждаются ниже -

Метрики

Precision-source - Precision-source (prec (s)) количественно определяет степень галлюцинации, которую модель имеет по исходному документу. Математически это определяется как -

Prec (s) = N (h ∩ s) / N (h)

здесь N (h) и N (s) относятся к набору именованных объектов в сгенерированном резюме и исходном документе соответственно. Они используют модель NER SpaCy для извлечения этих сущностей. Низкое значение Prec (s) будет означать, что галлюцинация серьезна, потому что в этом случае N (h) будет высоким, так как количество уникальных объектов в сгенерированной сводке будет большим.

Precision-target— Precision-target (prec (t)) делает то же самое, что и Prec (s), но по отношению к фактическому итоговому значению. идея состоит в том, чтобы подсчитать, сколько сущностей генерирует модель в сводке гипотез, которые также являются частью фактического резюме. Математически это дается как -

Prec (t) = N (h ∩ t) / N (h)

здесь N (h) и N (t) относятся к набору именованных объектов в сгенерированной / гипотезе и фактическом резюме соответственно.

Recall-target - В разделе Recall-target (вспомнить (t)) идея состоит в том, чтобы подсчитать, сколько сущностей в фактическом сводке не присутствует в сводке гипотез, созданной моделью. Математически это дается как -

напомним (t) = N (h∩t) / N (t)

здесь N (h) и N (t) относятся к набору именованных объектов в сгенерированной / гипотезе и фактическом резюме соответственно. Чтобы получить единое количественное число, они объединяют как Pre (t), так и Prec (s) и представляют как F1-оценку. Математически это дается как -

F1 = 2 · Prec (t) · отзыв (t) / (Prec (t) + отзыв (t))

Фильтрация данных на основе сущностей

Авторы предполагают, что проблема галлюцинаций в значительной степени заложена в самих обучающих данных. Поэтому, чтобы проверить это, они подсчитали оценки Pre (s) для сводной информации о достоверности информации по трем популярным наборам данных, а именно, Newsroom, CNN / DM и XSUM.

Как видно из приведенной выше таблицы, частота галлюцинаций составляет почти 10% для Newsroom и набора данных CNN / DM и почти 20% для XSUM. Итак, если вы увидите, что это довольно значительные числа, значит, модель также изучит эти закономерности и предназначена для создания галлюцинаций при составлении резюме.

Следовательно, авторы предлагают метод фильтрации данных, при котором, если какой-либо из объектов в резюме отсутствует в исходном документе, это конкретное предложение из резюме удаляется. В случае, если краткое изложение истинности состоит только из одного предложения и его необходимо отбросить, мы удаляем пару документ-сводка из набора данных. Итак, после удаления предложений из всех трех наборов данных золотого стандарта значительный объем данных был удален. Например, в таблице ниже показано то же самое для набора данных XSUM. Первая строка - это фактическое количество, а вторая строка - это этап фильтрации данных после подсчета.

Оценочные баллы для модели, обученной на фактических и отфильтрованных данных, указаны в разделе результатов.

Многозадачное обучение

В соответствии с этим они предлагают дополнительную задачу по классификации итоговых достойных именованных сущностей в исходном документе (сторона кодировщика). Сущность, достойная обобщения, определяется как названная сущность из исходного документа, которая также присутствует в кратком изложении достоверной информации. Для этого они маркируют каждый токен в исходном документе с помощью схемы BIO (B-Begin, I-Inside, O-outside), что является довольно стандартной техникой для маркировка однословных / многословных объектов в текстовом сегменте. На рис. наглядно показывает процесс -

и математически это может быть представлено как -

Интуиция, стоящая за этой потерей, заключается в том, что эта потеря вынудит кодировщик смоделировать свое представление так, чтобы он фиксировал релевантную информацию о сущностях, достойных обобщения. Теперь, когда декодер получает обогащенное представление об этой сущности, он может создавать довольно хорошие вдумчивые поколения (которые, надеюсь, приводят к меньшим галлюцинациям)?

Помимо потерь BIO, они также используют типичные потери MLE для модели генерации обучающей последовательности, которая распространяет потери со стороны декодера. Математически это можно представить как -

здесь theta, x, y, i - параметры модели, входные токены, выходные токены и i-й токен соответственно. Наконец, они минимизируют совместные потери L (i) = L (i) _MLE + αL (i) _ BIO, где α - гиперпараметр. Они выбирают α от 0,1 до 0,5 на основе набора для проверки.

Присоединяйтесь к Salient Entity and Summary Generation (JAENS)

Помимо двух предыдущих методов, они также исследуют другой генеративный подход, в котором вместо простого создания сводки они обучают модель последовательности генерировать последовательность именованных сущностей, достойных сводки, за которыми следует специальный токен, а затем - итоговые токены.

Интуиция, лежащая в основе этого подхода, заключается в том, что при генерации итоговых токенов декодер может обращаться к сущностям, достойным обобщения, через механизм самовнимания. Поскольку он совместно научится определять достойные обобщения именованные сущности, одновременно обучаясь составлению резюме. Ниже рис. наглядно показывает процесс -

Результаты

Как видно из таблицы ниже, предлагаемый подход дает довольно хорошее снижение частоты галлюцинаций.

При желании вы также можете просмотреть резюме других исследовательских работ, которые я написал.

Так что да, это все для этого блога. У меня есть пошаговое руководство по многоязычному видео с субтитрами. Если вам нравится использовать видеоконтент вместо текстового (как и у меня: D), обязательно ознакомьтесь с ним -

Не стесняйтесь читать всю статью и говорить «Привет» авторам и ценить их вклад.

Название статьи: Фактическая непротиворечивость обобщения абстрактного текста на уровне сущности

Ссылка на публикацию: https://arxiv.org/pdf/2102.09130.pdf

Авторы: Фэн Нан, Рамеш Наллапати, Чжиго Ван, Цицеро Ногейра душ Сантуш, Хэнхуи Чжу, Дэцзяо Чжан, Кэтлин Маккеун, Бинг Сян

Кроме того, если вам понравилось читать эту статью, вы можете выбрать купить мне чай на https://www.buymeacoffee.com/TechvizCoffee - потому что я не собственно кофе пью :) Большое спасибо! Это совершенно необязательно и добровольно :)

Проблемы с существующими моделями обобщения абстрактного текста - даже с SOTA