В основном реализация алгоритмов машинного обучения и искусственного интеллекта требует больших усилий и распределения задачи между большим количеством людей. Обучение и развертывание моделей глубокого обучения также являются сложным и длительным процессом. Кроме того, существуют огромные затраты на разработку.
Что делать, если вы не Data Scientist и/или у заказчика нет обучающих данных, но вы хотите в короткие сроки получить Proof of Concept/Prototype?
Всегда есть решение любой проблемы. AWS предоставляет множество сервисов, которые уже содержат механизмы ML/AI, а с небольшим творческим подходом и мощными инструментами PoC/Prototype можно реализовать дешево, быстро и без более глубоких знаний Data Scientist.
Пример использования
Один из наших клиентов ежегодно обрабатывает более 42 000 заявок. Процесс подачи заявки занимает около 80 минут и может содержать более 20 различных типов документов. Один из кредитных инспекторов может обрабатывать до 1400 процессов в год с процентом переделок до 20%.
Решение
Архитектурный проект высокоуровневого решения будет выглядеть следующим образом:
Он содержит модели DL для OCR и конвейер классификации с активным механизмом обучения. Конвейер маркировки человеком с инновационными алгоритмами и методами взаимодействия с пользователем для повышения точности маркировки человеком. Также включены алгоритмы консолидации для устранения ошибок или предвзятости отдельных работников. Непрерывно обучайте и развертывайте модели, чтобы повысить их способность к автоматической классификации с каждой итерацией.
🤯🤯🤯
Вау, давайте не будем усложнять и для начала уменьшим сложность варианта использования. Что, если мы просто реализуем простую инфраструктуру вывода с двумя путями, в которой пользователь может загружать, запускать, проверять и исправлять обработку по крайней мере для двух разных типов документов, используя доступные сервисы AWS.
Опытный образец
С помощью JavaScript и Node.js мы можем реализовать простой веб-интерфейс для загрузки документов в корзину S3, проверки результатов и запуска извлечения текста и валадиона. Затем мы можем использовать функцию Lambda для запуска извлечения текста, автоматической маркировки, проверки человеком и сохранения результатов в базе данных:
- Автоматическую маркировку мы можем реализовать на Python с помощью простых алгоритмов поиска.
- Конвейер извлечения текста с использованием AWS Texttract
- Верификация человека с помощью Amazon A2I
- Уровень сохраняемости данных в NoSQL DynamoDB
и реализован прототип VOILÁ.
Архивы
За короткое время мы подтвердили, что PoC работает, и уже с этим прототипом мы смогли сократить время обработки до менее чем 5 минут.