Могут ли машины действительно видеть мою микроволновую печь?

Искусственный интеллект был модным словом в течение нескольких лет. Однако за кулисами он меняет мир к лучшему. Практически нет области, в которой он не применим, а количество вариантов использования бесчисленное множество. WeGroup уже инвестировала в ИИ, чтобы обрабатывать иски наших клиентов о возмещении ущерба. Часть процесса автоматизирована, чтобы потребности наших клиентов были удовлетворены как можно быстрее, а наши специалисты могут использовать сэкономленное время для решения критических ситуаций.

Мы расширяем нашу систему искусственного интеллекта, чтобы еще больше улучшить качество обслуживания клиентов. Идеальным вариантом было бы оценить стоимость ваших вещей в случае повреждения. Таким образом, если претензия будет принята, сумма будет выплачена мгновенно. Мы считаем, что нашли то решение, которое гарантирует, что ваше самое ценное имущество будет защищено должным образом. Как? С устройством вы всегда держите под рукой свой смартфон. Мы активно разрабатываем приложение для регистрации ваших ценных вещей с помощью камеры вашего смартфона, чтобы оно могло идентифицировать понравившийся вам объект, его состояние и ценность.

Первый шаг - определить, что изображено на картинке. В ИИ есть специальная ветка, которая занимается этой задачей, то есть распознавание изображений. Чтобы сэкономить драгоценное время и усилия, мы интегрируем существующие платформы в наше приложение. Чтобы понять, какая платформа подходит нам лучше всего, мы провели тщательное расследование, результаты которого обсуждаются ниже.

Нашей целью было проанализировать производительность различных платформ. Критериями являются точность, простота использования и стоимость. Мы изучаем Cloud Vision, Rekognition и TensorFlow (алгоритм на основе ImageNet), которые являются платформами крупных игроков (Google, Amazon). Помимо этих трех, мы также рассмотрим Clarifai и CamFind (приложение для Android).

Точность

Чтобы проверить точность, мы собрали небольшой набор изображений, которые мог сделать пользователь. Ниже приведены 3 изображения, которые мы скармливаем платформам распознавания изображений. Желаемые распознаваемые объекты: 1) микроволновая печь, 2) кухня и холодильник, 3) стол, экран и ноутбук.

Общая точность сопоставима и неплохая. Результат CamFind очень специфичен по сравнению с другими и возвращает только один объект для каждого изображения. Хотя подробное описание может быть полезно для определения ценности объектов, на этом этапе приложения оно не является существенным.

Большинство платформ включают вероятность или меру уверенности в своих результатах. То, как они определяют это число, зависит от платформы, и поэтому его трудно сравнивать.

Простота использования

Cloud Vision, Rekognition и Clarifai смогли обнаружить наиболее заметные объекты на изображениях. В исходных результатах было много дополнительной информации, которую нам нужно было отфильтровать. Платформы не только возвращают объекты, но также способны понимать другие концепции, например есть ли на снимке человек, или если снимок сделан в помещении или на улице. Все три платформы предлагают онлайн-API, который можно легко интегрировать с нашим приложением.

Мы использовали TensorFlow в сочетании с моделью Inception-v3. Inception-v3 обучен для ImageNet Large Visual Recognition Challenge с использованием данных за 2012 год. Это стандартная задача в компьютерном зрении, когда модели пытаются классифицировать целые изображения по 1000 классам, таким как «Зебра», «Далматинец» и «Посудомоечная машина». ». Поскольку он обучен «всего» на 1000 классах, TensorFlow определенно не способен обнаруживать все виды объектов. Но если какой-то неподдерживаемый объект будет важен для наших клиентов, мы могли бы самостоятельно переобучить модель.

То, как TensorFlow возвращает результаты, отличается от других. TensorFlow всегда возвращает 5 классов с наибольшей вероятностью, остальные возвращают как можно больше концепций, если они актуальны.

CamFind имеет то преимущество, что вы можете сделать снимок с помощью приложения и сразу же проанализировать его. Приложение CamFind возвращает только один очень конкретный результат. Если мы хотим, чтобы наш пользователь мог сфотографировать несколько объектов вместе, результата CamFind будет недостаточно.

Расходы

Cloud Vision, Rekognition и Clarifai - это онлайн-сервисы с ценами, основанными на использовании. Первые тысячи запросов обычно бесплатны, а затем стандартная стоимость составляет 1 доллар за 1000 запросов. Это не слишком дорого, но по мере роста нашей клиентской базы мы не можем пренебрегать этой стоимостью. TensorFlow, с другой стороны, является программным пакетом с открытым исходным кодом и, следовательно, бесплатным для использования.

Заключение

Мы хотели бы объединить лучшее из обоих миров в нашем приложении. Мы хотим, чтобы наши пользователи делали снимки на свой смартфон и сразу же загружали их, как в CamFind. Однако в наших бэкэнд-сервисах мы хотели бы получить более универсальный результат. Преимущество TensorFlow в том, что он фокусируется на объектах, и мы можем запускать его сами. Если наша модель не может обнаружить какой-либо тип объекта, мы могли бы использовать Cloud Vision или Rekognition в качестве запасного варианта.

Могут ли машины действительно видеть мою микроволновую печь?

Точность

Простота использования

Расходы

Заключение

Вопросы по теме