Сравнение лучших API компьютерного зрения для распознавания текста

API компьютерного зрения могут идентифицировать объекты на изображении, распознавать лица, извлекать слова, текст и даже анализировать эмоции, выражаемые людьми, и все это в кратчайшие сроки. И есть предложение услуг, связанных с каждой из этих возможностей. Компании могут отсеивать оскорбительные фотографии и защищать своих пользователей, они могут улучшить поиск, скажем, на веб-сайте стоковых изображений с более релевантными тегами для изображений, или выполнить анализ настроений на фотографиях, чтобы лучше продавать их своей аудитории.

Вариантов использования много, поэтому в бой вступили такие гиганты, как Google, Microsoft и IBM. Сегодня эти крупные игроки уговаривают клиентов готовыми API компьютерного зрения для всех, кто в них нуждается.

Однако универсальный подход не всегда может быть полезным. Например, вы не можете полагаться на готовое решение для определения породы собаки на картинке или маркировки всех вышитых платьев на своем веб-сайте электронной торговли. Здесь на помощь приходит гибридное решение, подобное тому, что предлагает Playment.

Playment предлагает полностью управляемое решение, сочетающее мощь технологий с человеческим интеллектом для анализа изображений и извлечения высокоточных и надежных данных для проектов любого масштаба. Компании используют услуги Playment для создания и улучшения метатегов для базы данных изображений или обучения своих алгоритмов для автоматизации задач ИИ более высокого порядка.

Сегодня мы решили сравнить производительность нескольких отраслевых решений с нашим собственным предложением в Playment - чтобы извлекать текст из изображений. В рамках этого эксперимента мы сравнили Google Cloud Vision API, Microsoft Cognitive Services - Computer Vision API, Free OCR API (с открытым исходным кодом) и персонал Playment. Мы стремились извлечь информацию, содержащуюся на 3001 изображении автомобилей, и предоставить информацию, содержащуюся в номерных знаках.

Были получены следующие результаты:

*% Возврата = извлеченные данные / общее количество обработанных изображений
* точность% = правильно извлеченные / всего извлеченные данные

Вы можете получить доступ ко всему набору данных, используемому для приведенного выше сравнения, вместе с их результатами здесь.

Как видите, готовые решения оказались не слишком хорошими: Google удалось извлечь данные, содержащиеся в 2762 изображениях, а Microsoft - только для 1328 изображений. Оперативная группа в Playment успешно извлекла текст из 2882 изображений. Соответствующий процент отзыва для каждого поставщика составляет 92% (Google), 44% (Microsoft) и 96% (платежи). Playment воспользовалась услугами своих суперпользователей, чтобы поднять процент отзыва до 100% за одну итерацию.

Однако ключевым отличительным фактором является точность этих данных. Playment возглавил чарты с точностью 98%, тогда как Google значительно отстал с точностью 66%. А хуже всех оказалась Microsoft с точностью всего 34%, неверно извлекая информацию из 865 изображений и не имея возможности извлекать данные в 1673 случаях. Что касается производительности инструмента с открытым исходным кодом (Free OCR API), результаты были неудовлетворительными для крупномасштабных операций. Вот один из таких примеров:

Случай, когда и Google, и Microsoft извлекли неверные данные, что озадачило форму цифр.

Поставщик услуг Результаты

Результаты Google Cloud Vision API

Результаты Microsoft Computer Vision API

Факторы, которые привели к плохому отзыву со стороны Google и Microsoft:

Google API не смог извлечь никаких данных, когда номерной знак был наклонен. Плохое разрешение изображений также способствовало плохой запоминаемости. Их API-интерфейсы изо всех сил пытались извлечь информацию из расфокусированных изображений или изображений, сделанных с некоторого расстояния, когда текст был немного размытым.

Однако в Microsoft мы не смогли идентифицировать разрешение или ориентацию изображения как причину плохой запоминания - их решение не могло прочитать даже простейшие изображения.

Однако модель Playment гарантирует, что клиенты запомнят на 100%, даже если изображение нечеткое, некачественное или иным образом скомпрометировано.

Факторы, которые привели к низкой точности Google и Microsoft:

Экземпляры, которые запускали Google Vision API, почти всегда содержали похожие символы, машина не могла различать «5» и «S». Он также запутался в различении между «1» и «|», «8» или «B», «A» или «4», «M» или «W, N», «C» или «G», «D». »Или« О ».

Когда нужно было идентифицировать более одного номерного знака на одном изображении, точность требовала больших усилий. Ч / б изображения и низкое разрешение также отрицательно сказались на точности.

Однако мы заметили, что Google Vision API во многих случаях неточно определял только 1 символ, и абсолютно несоответствующих ответов было немного. В то время как служба Microsoft часто выдавала неполные данные, запутывалась, когда присутствовали похожие на вид символы, и очень часто извлекала непригодные, в высшей степени нерелевантные данные.

Изменились ли результаты при увеличении изображения?

Наклон изображений не привел к большему отзыву, но окончательная точность упала до менее чем 50% этих случаев. Если необходимо повысить точность, алгоритмы необходимо специально обучить для этого. Результаты не были значительно более точными при увеличении изображения, поскольку разрешение изображения не изменилось.

Дополнительные возможности обслуживания

Помимо извлечения данных из изображений, Playment также помогает клиенту создавать ограничивающие рамки вокруг объектов, чтобы четко идентифицировать интересующие области. Например, алгоритм обучения беспилотного автомобиля будущего потребует, чтобы он правильно идентифицировал различные объекты и отличал дерево от человека, распознавал ограничитель скорости и т. Д. И т. Д. Другой вариант использования - обучение самоуправляемых дронов, чтобы отличать здания от птиц, когда они летят по маршруту от пункта назначения A до пункта B. более удобное решение, сразу с места в карьер, благодаря извлечению только важной информации.

Преимущество оплаты:

Этот эксперимент показывает, что нельзя полагаться на стандартные API-интерфейсы компьютерного зрения от отраслевых гигантов для получения высокоточных и безошибочных результатов для больших наборов данных. Эти решения также нельзя настроить в соответствии с конкретными потребностями нишевого поставщика услуг. Можно утверждать, что обе эти цели могут быть достигнуты путем создания собственных возможностей. Однако решение нанять и создать команду разработчиков имеет свои подводные камни.

Поиск и найм подходящих специалистов для создания индивидуального решения - это решение, требующее значительных затрат времени и ресурсов. Многие компании предпочитают нам простоту аутсорсинга аннотаций изображений и извлечения данных, чтобы они могли сразу приступить к работе и сосредоточиться на своем основном бизнесе. Даже если аннотирование изображений является постоянной потребностью в вашей работе, вам необходимо подумать, можете ли вы и дальше нести фиксированные затраты на поддержку и рост своей команды разработчиков. Модель оплаты по факту использования, предлагаемая Playment, с другой стороны, предлагает высокую степень гибкости и прозрачности.

И независимо от того, нужно ли вам извлекать данные из 10 000 или 100 000 изображений в день, вы можете расслабиться, зная, что Playment предоставит масштабируемое решение, которое будет соответствовать растущим потребностям вашего бизнеса. Вы можете наслаждаться гибкостью, используя распределенную рабочую силу, когда в этом возникает необходимость, и уложиться в сжатые сроки. Мы также обеспечиваем беспроблемное развертывание, которое легко интегрируется с вашим существующим рабочим процессом.

В этом контексте Playment становится явным победителем по сравнению с технологическим решением, поскольку позволяет людям обеспечивать 100% отзыв при сохранении точности и своевременной доставке критически важных для бизнеса данных.

Первоначально опубликовано в Платежном блоге