Как добавлять комментарии к PDF-файлам и отсканированным изображениям для приложений NLP

Вступление

Будь то квитанции, контракты, финансовые документы, счета-фактуры и т. Д., Автоматизация поиска информации поможет вам повысить эффективность и производительность вашего бизнеса за небольшую часть затрат. Однако этот удивительный подвиг будет невозможен без текстовой аннотации. В то время как задачи НЛП, такие как NER или извлечение отношений, широко используются для поиска информации в неструктурированном тексте, анализ структурированных документов, таких как счета-фактуры, квитанции и контракты, является более сложной задачей.

Во-первых, не так много семантического контекста вокруг сущностей, которые мы хотим извлечь (например, цена, продавец, налог и т. Д.), Которые можно использовать для обучения модели НЛП. Во-вторых, формат документа часто меняется от одного счета к другому; это приведет к тому, что традиционные задачи NLP, такие как NER, будут плохо работать со структурированными документами. При этом структурированный текст, например счет-фактура, содержит обширную пространственную информацию об объектах. Эта пространственная информация может использоваться для создания встраивания двухмерной позиции, которая обозначает относительное положение маркера в документе. Совсем недавно Microsoft выпустила новую модель LayoutLM для совместного моделирования взаимодействия между текстом и информацией о макете в отсканированных изображениях документов. Они достигли новейших результатов в нескольких последующих задачах, включая понимание формы (от 70,72 до 79,27), понимание квитанции (от 94,02 до 95,24) и классификацию изображений документа (от 93,07 до 94,42).

Отсканированные изображения и аннотации PDF

Для точной настройки модели layoutLM для пользовательских счетов-фактур нам необходимо предоставить модели аннотированные данные, которые содержат координаты ограничивающей рамки каждого токена, а также связь между токенами (см. Руководство здесь для точной настройки Данные FUNSD):

{
"box": [76,129,118,139],
"text": "Brand:",
"label": "question",
"words": [
{
"box": [76,129,118,139],
"text": "Brand:"}],
"linking": [[0,2]],
"id": 0}]}

Поскольку большинство квитанций и счетов-фактур представлены в отсканированном формате или в формате PDF, нам необходимо найти инструмент аннотации, способный выполнять синтаксический анализ и аннотации OCR непосредственно в исходных PDF-файлах и изображениях. К сожалению, большинство инструментов аннотации, которые поддерживают аннотации OCR, либо непомерно дороги, либо неполны, когда вам нужно выполнять внешний этап OCR перед аннотацией.

Вот почему в UBIAI мы разработали комплексное решение для добавления комментариев непосредственно к исходным PDF-файлам, отсканированным изображениям или изображениям с вашего телефона без потери какой-либо информации о макете документа. Это полезно для извлечения счетов-фактур, когда последовательность текста и пространственная информация одинаково важны. Все, что вам нужно сделать, это загрузить ваш PDF, JPG или PNG напрямую и начать комментировать. Используя современную технологию OCR от AWS Textract, UBIAI проанализирует ваш документ и извлечет все токены с их ограничивающей рамкой. Просто выделите токен в исходном документе (правая панель) или проанализированном тексте (левая панель) и назначьте метку. Помимо маркировки сущностей, вы также можете выполнять аннотацию отношений и маркировку классификации документов.

Аннотировать несколько слов тоже легко. Просто создайте рамку вокруг слов, которые вы хотите выделить, и они будут автоматически аннотированы (см. Ниже).

Предварительная аннотация к счету

Кроме того, вы можете предварительно аннотировать свои счета с помощью словарей, регулярных выражений (например, для поиска дат, адресов электронной почты, имен и т. Д.) Или предварительно обученной модели машинного обучения.

Аннотации Экспорт

Как только вы закончите аннотацию, просто экспортируйте аннотированные документы в формате JSON:

Заключение

Аннотации OCR UBIAI позволяют обучать модели НЛП с меньшим трением, обеспечивая простой в использовании и точный интерфейс маркировки. Вам не нужно беспокоиться о предварительной обработке изображений с помощью внешних API-интерфейсов или добавлении правил для предварительного аннотирования ваших документов. Просто загрузите свои документы, добавьте аннотации и экспортируйте. В следующей части мы покажем, как точно настроить модель layoutLM в вашем собственном наборе данных для распознавания счетов, следите за обновлениями!

Если вы хотите обучить модель НЛП для структурированного текста, посетите нас на https://ubiai.tools или отправьте нам письмо по адресу [email protected], чтобы запланировать демонстрацию!

Следуйте за нами в Twitter @ UBIAI5