Используя преимущества существующих предварительно обученных языковых моделей и адаптируясь к задачам понимания изображений документов, Structural LM использует архитектуру BERT в качестве основы.
Основываясь на архитектуре, мы предлагаем использовать информацию о макете на уровне ячеек из изображений документов и включать их в кодировщик преобразователя.
Во-первых, учитывая набор токенов из разных ячеек и информацию о расположении ячеек, входные вложения на уровне ячеек вычисляются путем суммирования соответствующих вложений слов, вложений 2D-положения на уровне ячейки и исходных вложений 1D-позиции. Затем эти входные вложения передаются через двунаправленный кодировщик Transformer, который может генерировать контекстуализированные представления с помощью механизма внимания.
Предварительная подготовка
Моделирование маскированного визуального языка. Мы случайным образом маскируем некоторые из входных токенов, но сохраняем соответствующие вложения позиций на уровне ячеек, а затем модель предварительно обучается для прогнозирования замаскированных токенов.
По сравнению с MVLM в LayoutLM, StructuralLM использует информацию о макете на уровне ячеек и более точно предсказывает маркеры маски.
Классификация положения ячеек. Сначала мы разделяем их на N областей одинакового размера. Затем мы вычисляем область, к которой принадлежит ячейка, через центральное 2D-положение ячейки.
При этом некоторые ячейки выбираются случайным образом, а 2D-позиции токенов в выбранных ячейках заменяются на (0; 0; 0; 0). Слой классификации строится над выходными данными кодировщика. Этот слой предсказывает метку [1,N] области, в которой расположена выбранная ячейка, и вычисляет кросс-энтропийную потерю.
Следуя LayoutLM, StructuralLM предварительно обучен работе с набором тестов IIT-CDIP 1.0.
Чтобы воспользоваться преимуществами существующих предварительно обученных моделей и адаптироваться к задачам понимания изображения документа, веса модели StructuralLM инициализируются с помощью предварительно обученной большой модели RoBERTa, за исключением слоев внедрения 2D-позиций.
Тонкая настройка
- Понимание форм и квитанций: набор данных FUNSD
- Классификация изображений документов: набор данных RVL-CDIP
- Документирование ответов на визуальные вопросы: набор данных DocVQA
Бумага
StructuralLM: структурная предварительная подготовка для понимания формы 2105.11210
Просмотреть все темы этой серии здесь