"предыдущий пост"

Хорошо, прошло всего 2 дня с моей последней записи, так что это будет относительно короткий пост. Направление, которое я предложил в варианте 1 этого поста, заключалось в более надежной, интерпретируемой и информативной визуализации внимания, особенно в контексте краткого изложения текста. Краткий обзор:

Возможно, взаимодействие можно использовать для создания более проницательной и интерпретируемой структуры визуализации для понимания внимания. Например, текстовые тепловые карты уже широко используются для визуализации анализа настроений.

В статическом контексте использование этого метода для привлечения внимания потребовало бы повторения одной и той же входной последовательности для каждого слова в выходной последовательности. Однако, используя взаимодействие, создатель модели может обработать отдельные слова или последовательности слов в выходной последовательности, чтобы просмотреть соответствующее мягкое выравнивание во входной последовательности. В дополнение к этому представлению могут быть показаны агрегированные визуализации (либо агрегаты по определенной последовательности ввода/вывода, либо агрегаты по всем последовательностям ввода/вывода).

В настоящее время я работаю над созданием основы для такого проекта. Задача 1: реализовать модель. Без него нет данных для визуализации!

Имея это в виду, вот что я сделал:

Поиск набора данных для суммирования текста

Беглый обзор недавних исследовательских работ [1–5] по точкам суммирования текста, а также онлайн-форумов указывает на три часто используемых набора данных.

  1. CNN/Daily Mail Corpus. Коллекция статей и их сводок, каждая из которых разделена на вопросы и ответы. Сценарий [1] может быть запущен по исходному набору данных, чтобы восстановить исходные сводки по пунктам, которые будут использоваться в качестве сводного корпуса.
  2. ДУК Корпус. В частности, DUC 2003 и DUC 2004. Они содержат набор документов, каждый из которых сопровождается кратким (~10 слов) резюме. Существует также более подробная сводка для каждой группы документов.
  3. Гигаворд корпус. Аннотированная коллекция из миллионов документов. Задача обобщения здесь будет состоять в том, чтобы предсказать заголовок каждого [5]

Доступность CNN/Daily Mail Corpus (для двух других требуется процесс), а также распространенность проектов, использовавших его в качестве основного набора данных [1, 2, 4], сделали это самый привлекательный вариант. Относительно более длинные сводки (~ 4 маркера по сравнению с коротким комментарием в двух других наборах данных) также удобно подходят для случая интерактивной визуализации с выбором нескольких токенов (например, выберите весь маркер и посмотрите, где он присутствовал). Для основы это будет мой набор данных!

Определение базовой модели

См. и др. (2017) [1] изложили модель внимания seq2seq в качестве базовой линии (двунаправленный LSTM). Я буду использовать это как базовую модель для получения данных.

Получение некоторого кода

Я буду использовать PyTorch и набор инструментов AllenNLP [7] для реализации своих моделей NN. Они оба готовы к работе как на моей машине, так и на Azure. В настоящее время я пишу DatasetReader для набора данных, описанного выше.

Следующие шаги

  • Завершите написание DatasetReader для CNN/Daily Mail Corpus.
  • Начните работу над базовой моделью внимания seq2seq, как описано в разделе Определение базовой модели.

Процитированные работы

[1] См. Abigail et al. «Перейти к сути: суммирование с помощью сетей генераторов указателей. ACL (2017 г.)»

[2] Hasselqvist, Johan et al. «Абстрактное обобщение на основе запросов с использованием нейронных сетей. CoRR abs/1712.06100 (2017): н. стр.»

[3] Наллапати, Рамеш и др. «Обобщение абстрактного текста с использованием последовательностей RNN от последовательности к последовательности и не только. CoNLL (2016 г.)»

[4] Паулюс, Ромен и др. «Глубоко усиленная модель для абстрактного обобщения. CoRR abs/1705.04304 (2017): н. стр.»

[5] Раш, Александр М. и др. «Модель нейронного внимания для абстрактного обобщения предложений. EMNLP (2015 г.)»

[6] Линь, Чжоухан, et al., «Структурированное вложение предложений с самостоятельным вниманием. препринт arXiv arXiv:1703.03130 (2017)».

[7] Гарднер, Мэтт и др. «AllenNLP: платформа глубокой семантической обработки естественного языка. (2017).»