Используя преимущества существующих предварительно обученных языковых моделей и адаптируясь к задачам понимания изображений документов, Structural LM использует архитектуру BERT в качестве основы.

Основываясь на архитектуре, мы предлагаем использовать информацию о макете на уровне ячеек из изображений документов и включать их в кодировщик преобразователя.

Во-первых, учитывая набор токенов из разных ячеек и информацию о расположении ячеек, входные вложения на уровне ячеек вычисляются путем суммирования соответствующих вложений слов, вложений 2D-положения на уровне ячейки и исходных вложений 1D-позиции. Затем эти входные вложения передаются через двунаправленный кодировщик Transformer, который может генерировать контекстуализированные представления с помощью механизма внимания.

Предварительная подготовка

Моделирование маскированного визуального языка. Мы случайным образом маскируем некоторые из входных токенов, но сохраняем соответствующие вложения позиций на уровне ячеек, а затем модель предварительно обучается для прогнозирования замаскированных токенов.

По сравнению с MVLM в LayoutLM, StructuralLM использует информацию о макете на уровне ячеек и более точно предсказывает маркеры маски.

Классификация положения ячеек. Сначала мы разделяем их на N областей одинакового размера. Затем мы вычисляем область, к которой принадлежит ячейка, через центральное 2D-положение ячейки.

При этом некоторые ячейки выбираются случайным образом, а 2D-позиции токенов в выбранных ячейках заменяются на (0; 0; 0; 0). Слой классификации строится над выходными данными кодировщика. Этот слой предсказывает метку [1,N] области, в которой расположена выбранная ячейка, и вычисляет кросс-энтропийную потерю.

Следуя LayoutLM, StructuralLM предварительно обучен работе с набором тестов IIT-CDIP 1.0.

Чтобы воспользоваться преимуществами существующих предварительно обученных моделей и адаптироваться к задачам понимания изображения документа, веса модели StructuralLM инициализируются с помощью предварительно обученной большой модели RoBERTa, за исключением слоев внедрения 2D-позиций.

Тонкая настройка

  • Понимание форм и квитанций: набор данных FUNSD
  • Классификация изображений документов: набор данных RVL-CDIP
  • Документирование ответов на визуальные вопросы: набор данных DocVQA

Бумага

StructuralLM: структурная предварительная подготовка для понимания формы 2105.11210

Просмотреть все темы этой серии здесь