Анализ сведений о документе с использованием OCR

Автор - Сураб Джаджориа (инженер, партнерская экосистема)

Формы являются неотъемлемой частью любой системы адаптации. В UrbanClap наши партнеры должны пройти строгую проверку биографических данных. Партнеры должны загрузить фотографии удостоверений личности, заполнить данные, указанные в удостоверениях личности, указать постоянный адрес и местный адрес. Большинство наших партнеров имеют опыт ограниченного доступа к технологиям и склонны делать ошибки при заполнении данных в партнерском приложении. Значительная часть операций была затрачена на исправление заполненных деталей и проверку загруженных изображений. Мы сократили эту полосу пропускания, включив в поток OCR и анализаторы документов. В этом блоге мы обсуждаем, как это изменение в процессе повысило удобство пользователя, повысило точность деталей и уменьшило ручные усилия.

В следующем разделе демонстрируется старый поток ввода данных и новый улучшенный поток.

Как изменился поток ввода данных?

Предыдущий поток

Партнеры и операционная группа заполняли формы вручную.
Идентификационные изображения были проверены центральными группами.

Новый поток

Система проверяет правильность идентификационного изображения и отклоняет неправильные изображения.
Система автоматически заполняет информацию из загруженных изображений удостоверений личности.

В следующем разделе объясняется автоматическая система заполнения реквизитов.

Как работает автоматизированная система заполнения реквизитов?

Как система извлекает детали из изображений?

Система извлекает данные из изображения идентификатора, используя следующие шаги:

Извлечь необработанный текст из документа с помощью OCR
Подтвердить документ на основе необработанного текста
Анализируйте релевантную информацию из необработанного текста с помощью анализатора документов

Что такое OCR?

OCR (оптическое распознавание символов) используется для преобразования текста, присутствующего в изображениях, в машинно-кодированный формат (Wikipedia Link). В нашем случае изображения являются документами, удостоверяющими личность. Общие этапы OCR:

Предварительная обработка изображения. Этот шаг включает в себя такие методы, как устранение перекоса изображения, удаление шума, бинаризация изображения, обнаружение линий, сегментация символов и масштабирование (Ссылка).
Классификация символов: здесь используются алгоритмы машинного обучения для классификации персонажа на основе обучающего набора и модели.

Мы проверили производительность некоторых решений OCR, доступных в нашем наборе данных изображений PAN Card ID. Эти решения включали проприетарные решения и решения с открытым исходным кодом. В наборе данных было хорошее сочетание изображений высокого, среднего и низкого качества в зависимости от резкости, шума, экспозиции и размера изображения.

Устройства OCR были протестированы на их способность правильно определять символы, присутствующие в имени и идентификационном номере. Учитывая наш вариант использования, мы ожидали в основном изображений среднего или низкого качества в производстве, поэтому хорошая производительность в этих категориях была важна. Более подробную информацию о нашем анализе можно найти здесь.

Подводя итог, Google Vision показал лучшие результаты во всех случаях, даже с изображениями низкого качества, где другие модели испытывали трудности. Цена на зрение также казалась разумной, поскольку мы ожидали менее 10 000 изображений в месяц. Ожидаемое качество изображения документов, удостоверяющих личность, на которые нажимали партнеры, было от среднего до низкого. Итак, мы выбрали Vision в качестве нашего первого выбора для OCR.

Как система проверяет документы?

Обычно проверка типа документа выполняется путем обучения модели классификации ожидаемому набору изображений документа. Этот подход требует обучения модели на изображениях всех документов, подлежащих классификации. Мы пошли с более простым подходом, используя текст, присутствующий в документе, чтобы проверить, действителен он или нет. Мы реализовали проверку на основе регулярных выражений для текста документа. Например, карта PAN имеет заголовок «ОТДЕЛ ПО НАЛОГОВОМУ НАЛОГОМ», текст с заголовком «НОМЕР ПОСТОЯННОГО СЧЕТА», текст соответствует формату номера PAN. Этот простой метод помог нам определить недействительные документы в производстве.

Что такое анализ документов?

Каждый стандартный документ, удостоверяющий личность, имеет определенный формат. Название документа, заголовки полей, форматы полей, положение фотографии, положение штрих-кода, формат номера документа и т. Д. Мы разработали правила на основе регулярных выражений для фильтрации релевантного текста из документа. Эти правила были специфичны для определенного типа документа, так как большинство документов различаются по формату.

Общие шаги, используемые для синтаксического анализа полей:

Убрать шум из текста
Найдите поля номера строк заголовка
Обработка значений полей на основе номеров строк заголовков

Полный процесс разбора документа можно найти здесь.

Мы смогли работать со средним временем отклика 7 секунд для автоматизированной системы заполнения деталей. В следующем разделе объясняется, как мы уменьшили среднее время отклика до 2 секунд.

Как мы сделали систему быстрой?

Время отклика автоматизированной системы заполнения деталей зависело от размера снимаемого изображения. Для изображений размером более 6 МБ время отклика значительно увеличивалось, в некоторых случаях даже превышало 30 секунд. Время загрузки из партнерского приложения также было большим для таких случаев. Это было нарушением пользовательского опыта и, следовательно, требовало некоторого исправления. Мы поэкспериментировали с сжатием изображений из партнерского приложения, и это сработало.

Мы масштабировали изображение до фиксированного количества пикселей (Ссылка)
Сжали изображение с максимально возможным качеством (Ссылка).

Благодаря этим усилиям нам удалось снизить среднее время отклика автоматизированной системы заполнения деталей до 2 секунд, не повлияв на точность распознавания текста. В следующем разделе представлены общие результаты нашей новой системы.

Как работает система на производстве?

Прежде чем интегрировать систему анализа деталей с приложением, мы провели анализ, чтобы сравнить точность сохраненных существующих вручную записей. Анализ проводился на данных за один месяц, которые содержали 432 изображения карты PAN. Мы проверили имя, дату рождения, номер документа. Мы обнаружили, что в 30% случаев данные, хранящиеся в базе данных путем ручного ввода, не совпадали с теми, которые представлены на изображении документа. Это означало эффективную точность 70%. Вдобавок к этому были случаи, когда правильное изображение документа не было загружено.

Автоматизированная система заполнения реквизитов смогла повысить корректность.

При производстве с более 1000 сканирований за последний месяц автоматическая система заполнения данных достигла среднего времени отклика 2 секунды.
В 142 случаях загружались неправильные документы, и система предотвратила все эти попытки.
Нам удавалось получить точные значения полей в 94% случаев. В остальных случаях либо поля не извлекались, либо партнерам приходилось редактировать поля.
Система значительно сократила ручные усилия, необходимые партнерам и производственной группе для заполнения идентификационных данных.

Будущее

Можно интегрировать больше парсеров документов, чтобы решить оставшиеся варианты использования для заполнения бортовых форм. Этими документами могут быть карта избирателя, водительские права, банковские чеки, дебетовые карты и т. Д.
Система отлично работает для однострочных полей, но для многострочных полей, таких как адрес на карте Aadhaar, точность системы не на должном уровне из-за шума, создаваемого несколькими языками. Мы все еще над этим работаем.
Систему проверки документов необходимо сделать более надежной для обработки случаев мошенничества.
Чтобы повысить точность системы, мы работаем над созданием визуальных подсказок, которые помогут партнерам правильно захватить изображения.
Мы планируем выпустить эту систему как библиотеку с открытым исходным кодом в ближайшем будущем.

Об авторе
Инженер по будням, художник по выходным, Сураб работает в команде партнерской экосистемы и любит творчески использовать технологии, чтобы наши партнеры 'живет проще.

Звучит весело?
Если вам понравился этот пост в блоге, пожалуйста, хлопайте в ладоши 👏 (сколько угодно раз) и подписывайтесь на нас (UrbanClap Blogger). Помогите нам создать сообщество, поделившись в ваших любимых социальных сетях (Twitter, LinkedIn, Facebook и т. Д.).

Вы можете узнать о нас больше в наших публикациях -
https://medium.com/urbanclap-design
https://medium.com/urbanclap-engineering
https://medium.com/urbanclap-culture https://www.urbanclap.com/blog/humans-of-urbanclap

Если вы хотите узнать о возможностях, посетите нас по адресу http://careers.urbanclap.com