DiT — это предварительно обученная модель Document Image Transformer с самоконтролем, использующая крупномасштабные немаркированные текстовые изображения для задач Document AI.
Мы используем DiT в качестве базовой сети в различных задачах Document AI, основанных на зрении, включая изображения документов. классификация, анализ макета документа, обнаружение таблиц, а также обнаружение текста для OCR.

Типичный конвейер для предварительного обучения моделей ИИ для документов обычно начинается с понимания на основе зрения, такого как оптическое распознавание символов (OCR) или анализ макета документа, который по-прежнему в значительной степени зависит от контролируемых базовых моделей компьютерного зрения с помеченными людьми обучающими образцами. Хотя хорошие результаты были достигнуты на эталонных наборах данных, эти модели видения часто сталкиваются с недостатком производительности в реальных приложениях из-за смещения предметной области и несоответствия шаблона/формата обучающим данным.

Не существует общепринятого крупномасштабного эталонного теста, помеченного человеком, такого как ImageNet, что делает крупномасштабное контролируемое предварительное обучение непрактичным. Несмотря на то, что для создания контрольных показателей ИИ для документов использовались слабо контролируемые методы, областью применения этих наборов данных
часто являются академические статьи, использующие схожие шаблоны и форматы, которые отличаются от реальных документов, таких как
формы, счета/квитанции, отчеты и многое другое. Это может привести к неудовлетворительным результатам для общих проблем с ИИ для документов. Поэтому очень важно предварительно обучить базовые модели изображений документов с помощью крупномасштабных немаркированных данных из общих доменов, которые могут поддерживать различные задачи ИИ для документов.

Архитектура модели

Вслед за ViT в качестве основы DiT используется ванильная архитектура Transformer. Разобьем изображение документа на непересекающиеся фрагменты и получим последовательность вложений патчей. После добавления встраивания 1-й позиции эти фрагменты изображения передаются в стек блоков Transformer с вниманием к нескольким головкам. Наконец, мы принимаем выходные данные кодера Transformer как представление патчей изображения.

Предварительная подготовка

Вдохновленное BEiT, моделирование маскированных изображений (MIM) используется в качестве цели перед тренировкой. В этой процедуре изображения представлены в виде фрагментов изображения и визуальных токенов в двух представлениях соответственно. Во время предварительной подготовки DiT принимает патчи изображения в качестве входных данных и предсказывает визуальные токены с выходным представлением.

Подобно текстовым токенам на естественном языке, изображение может быть представлено как последовательность дискретных токенов, полученных с помощью токенизатора изображений.
BEiT использует дискретный вариационный автокодировщик (dVAE) от DALLE в качестве токенизатора изображения, который обучен на большая коллекция данных, включая 400 миллионов изображений. Однако существует несоответствие доменов между естественными изображениями и изображениями документов, из-за чего токенизатор DALL-E не подходит для изображений документов. Поэтому, чтобы получить более качественные дискретные визуальные маркеры для домена изображения документа, мы обучаем dVAE на наборе данных IIT-CDIP, который включает 42 миллиона изображений документов.

Новый токенизатор dVAE обучается с комбинацией потерь MSE для восстановления входного изображения и потерь из-за недоумения для увеличения использования
представлений квантованной кодовой книги.

Чтобы эффективно предварительно обучить модель DiT, мы случайным образом маскируем подмножество входных данных специальным токеном [MASK] с учетом последовательности патчей изображения. Кодер DiT встраивает последовательность замаскированных патчей в линейную проекцию с добавленными позиционными вложениями, а затем
контекстуализирует ее с помощью стека блоков Transformer. Модель требуется для прогнозирования индекса визуальных токенов с выходом из
замаскированных позиций. Вместо того, чтобы предсказывать необработанные пиксели, задача моделирования маскированного изображения требует, чтобы модель предсказывала дискретные
визуальные токены, полученные устройством токенизации изображения.

Точная настройка

Классификация изображений Для классификации изображений мы используем объединение средних значений для агрегирования представлений фрагментов изображений. Затем мы передаем глобальное представление в простой линейный классификатор.

Обнаружение объектов Для обнаружения объектов мы используем Mask R-CNN и Cascade R-CNN в качестве сред обнаружения и используем модели на основе ViT в качестве основы. Мы используем модули изменения разрешения в четырех различных трансформаторных блоках, чтобы адаптировать одномасштабный ViT к многомасштабному FPN.

Пусть 𝑑 будет общим количеством блоков, 1𝑑/3-й блок передискретизируется в 4 раза с использованием модуля с транспонированной сверткой 2 шага-два 2×2. Для вывода 1𝑑/2-го блока мы используем транспонированную свертку 2 × 2 с одним шагом и двумя для повышения частоты дискретизации в 2 раза. Выход 2𝑑/3-го блока используется без дополнительных операций. Наконец, выход 3𝑑/3-го блока понижается в 2 раза с максимальным объединением шагов-два 2×2.

Оценка
Предварительно обученные модели DiT оцениваются по четырем общедоступным эталонным тестам Document AI:

  • Набор данных RVL-CDIP для классификации изображений документов
  • Набор данных PubLayNet для анализа макета документа
  • Набор данных CTDaR ICDAR 2019 для обнаружения таблиц
  • Набор данных FUNSD для распознавания текста OCR

Бумага

DiT: самоконтролируемая предварительная подготовка для преобразователя изображения документа 2203.02378

Просмотреть все темы этой серии здесь