Возможности AI в распознавании изображений

С появлением крупномасштабных облачных платформ AI и ML, предлагаемых AWS и Google, разработчикам приложений стало намного проще интегрировать AI и ML в свои приложения и использовать преимущества расширенных возможностей сложных алгоритмов AI / ML. даже без необходимости иметь штатных экспертов по искусственному интеллекту.

Можно утверждать, что наиболее распространенным применением ИИ является имитация человеческих взаимодействий или способов, которыми люди воспринимают информацию - видение и речь. Хотя речь является не менее важной областью искусственного интеллекта, и в этой области ведется столько же разработок, в этой статье основное внимание уделяется видению. Главный сегмент поля зрения - понимание изображений и видео. Современные пользователи Интернета, оснащенные высококачественными мобильными камерами, ежедневно производят и потребляют огромное количество изображений / видеоконтента. Классификация, фильтрация, редактирование и анализ данных изображения - типичный вариант использования. Предлагая AI / ML на облачных платформах, мы получаем множество мощных инструментов с большими преимуществами. В этой статье делается попытка пролить свет на эти возможности.

При работе с изображениями наиболее распространенные варианты использования связаны с обнаружением и распознаванием того, что находится на изображении. Используя платформы искусственного интеллекта, мы можем:

Распознавание лиц - человеческое ли это лицо? Если да, совпадает ли это человеческое лицо с одним из лиц в моей базе данных?
Обнаружение объектов - какие объекты присутствуют на изображении? Можем ли мы обнаружить и назвать все эти объекты?
Обнаружение текста - можем ли мы извлечь текст в случае текстового документа?
Логотипы, обнаружение ориентиров - можем ли мы точно определить и назвать естественные или искусственные достопримечательности или логотипы компаний?

Теперь давайте посмотрим, как эти платформы решают эти проблемы. Давайте сначала рассмотрим предложение Google в области искусственного интеллекта - Google Vision.

Google Vision

Теперь он является частью платформы Google Cloud и предоставляет множество функций, которые в значительной степени покрывают все требования, о которых мы упоминали выше. Google Vision предоставляет разработчикам API (так называемый Cloud Vision API) для соответствующих функций. Согласно официальной документации -

Cloud Vision API позволяет разработчикам понимать содержание изображения, инкапсулируя мощные модели машинного обучения в простой в использовании REST API. Он быстро классифицирует изображения по тысячам категорий (например, «парусник»), обнаруживает отдельные объекты и лица на изображениях и считывает напечатанные слова, содержащиеся в изображениях. Вы можете создать метаданные в своем каталоге изображений, смягчить оскорбительный контент или задействовать новые маркетинговые сценарии с помощью анализа настроения изображений.

Особенности / возможности

Маркировка изображений. Vision API помогает маркировать данное изображение на основе различных идентификаторов или тегов, которые оно может назначить этому изображению, определяя обнаруженную информацию. Ярлык был обширен - животные, автомобили, места, цвета, еда… все, что угодно.
Обнаружение лиц, логотипов и ориентиров. Достаточно хорошо распознает лица людей (и животных), логотипы брендов, памятники и известные места. Он может обнаруживать несколько лиц, присутствующих на изображении, а также определять, является ли лицо лицом знаменитости. Он также дает точные черты лица и эмоциональные состояния.
Оптическое распознавание символов (OCR) или обнаружение текста. Загрузите изображение или документ, и он зачитает весь текст. Даже если текста почти нет или документ является полнотекстовым.
Обнаружение откровенного содержания - это отличная функция, с помощью которой мы можем обнаруживать содержание для взрослых на основе данных изображения, созданного пользователем. Это дает возможность присутствия откровенного или агрессивного содержания.
Поиск Google - используя возможности данных и алгоритмов поиска Google, он пытается установить связь между заданным изображением и изображениями, доступными в Интернете. Используя это, он может искать похожие изображения, доступные в Интернете.

Облачная платформа Google
Облачная платформа Google позволяет создавать, развертывать и масштабировать приложения, веб-сайты и службы в одной инфраструктуре… console.cloud.google. com

Введение в Mobile Vision | Мобильное зрение | Разработчики Google
Mobile Vision API теперь является частью ML Kit. Мы настоятельно рекомендуем вам попробовать, поскольку он поставляется с новым… developers.google.com

Используя демонстрационную функцию на вышеуказанной странице, сервис можно протестировать для различных типов входных данных.

Одна интересная особенность Google Vision заключается в том, что у этого продукта есть ориентированный на мобильные устройства брат - Mobile Vision (теперь часть Firebase как ML Kit), предназначенный для разработчиков мобильных приложений. Он предоставляет возможности распознавания изображений с помощью облачных API-интерфейсов, а также распознавания изображений на устройствах с ограниченными возможностями. . Комплект машинного обучения сам по себе представляет собой новую захватывающую среду, предоставляющую разработчикам мобильных приложений чрезвычайно простые API-интерфейсы Rest.

Amazon Rekognition

«… Служба может идентифицировать объекты, людей, текст, сцены и действия, а также обнаруживать любой неприемлемый контент».

Платформа Amazon Rekognition предлагается Amazon как услуга в AWS. Изображения и видеоконтент, размещенные в корзине S3, можно передать в Rekognition для анализа. Он предлагает множество возможностей, аналогичных Google Vision, таких как извлечение текста, обнаружение объектов и обнаружение явного содержания, но есть и несколько впечатляющих дополнений.

AWS Rekognition обладает двумя уникальными функциями - отслеживание личности и анализ видео в реальном времени. Отслеживание человека позволяет обнаруживать и отслеживать перемещение конкретного человека и принимать на его основании решение. Видеоанализ в реальном времени может помочь в принятии мгновенных решений на основе объекта или действий, обнаруженных в живом видео.

«Amazon Rekognition основан на той же проверенной, хорошо масштабируемой технологии глубокого обучения, разработанной специалистами Amazon по компьютерному зрению для ежедневного анализа миллиардов изображений и видео, и не требует специальных знаний в области машинного обучения».

Здесь - официальная страница сервиса. Существует также демонстрационная страница для использования и тестирования функции.

Сервис rest выдает ответ JSON с подробным описанием обнаруженных объектов и действий.

Amazon также уделяет много внимания способности Rekonition распознавать определенные лица (в дополнение к обнаружению), то есть обнаруживать лицо на изображении и распознавать его, сопоставляя его с лицами, хранящимися в вашей собственной базе данных. Используя это, любой может создать приложение для распознавания людей, если у него достаточно данных. Хотя как и в этой статье, возникают некоторые опасения по поводу конфиденциальности.

Подробное сравнение Google Cloud Vision и Amazon Rekognition можно найти здесь.

Помимо Cloud Vision и Rekognition, доступны и другие решения. Здесь стоит упомянуть OpenCV, который представляет собой фреймворк или библиотеку с открытым исходным кодом, которая имеет огромное количество алгоритмов машинного обучения, которые используются для обнаружения объекта или действий. OpenCV не является облачным решением.

Возможности AI в распознавании изображений

Google Vision

Особенности / возможности

Amazon Rekognition

Вопросы по теме