Полное руководство по маркировке изображений для компьютерного зрения

Что такое маркировка изображений?

Маркировка изображений фокусируется на идентификации и маркировке конкретных деталей изображения. Он обычно используется для создания наборов данных для обучения алгоритмов компьютерного зрения.

Качество меток изображений будет определять общее качество набора данных и его эффективность в алгоритмах обучения. Точные метки необходимы для создания надежных моделей компьютерного зрения, которые могут обнаруживать, идентифицировать и классифицировать объекты. Таким образом, маркировка изображений становится неотъемлемой частью процесса операций машинного обучения (MLOps).

Наборы данных изображений делятся на обучающий набор, используемый для первоначального обучения модели, и набор тестов/проверок, используемый для оценки производительности модели. Конечным результатом является создание модели, которая получает невидимые, немаркированные данные и способна генерировать точные прогнозы.

Важность маркировки изображений

Интерес к маркировке изображений растет, что является прямым результатом широкого внедрения технологий искусственного интеллекта (ИИ). Приложения компьютерного зрения можно найти в самых разных отраслях — например, они используются для создания автономных транспортных средств, контроля качества продукции во время производства и анализа записей видеонаблюдения для обнаружения подозрительной активности.

Чтобы разработать систему компьютерного зрения с искусственным интеллектом, специалисты по данным должны сначала обучить модель распознавать изображения и объекты. Компьютерное зрение может «видеть» с помощью камер, но без обучения и соответствующих моделей оно не может интерпретировать то, что видит, и запускать соответствующие действия.

Алгоритм компьютерного зрения с глубоким обучением учится распознавать изображения из обучающего набора данных помеченных изображений. Специалисты по данным собирают соответствующие изображения или видео, которые представляют собой реальные входные данные, с которыми алгоритм может столкнуться. Затем специалисты по маркировке данных просматривают эти изображения и присваивают точные метки. Обычно они используют инструменты аннотирования данных, чтобы рисовать ограничивающие рамки вокруг объектов на изображении и присваивать им осмысленную текстовую метку.

Новые примеры использования маркировки изображений

Компьютерное зрение выходит за рамки классических вариантов использования, таких как автономные автомобили и анализ медицинских изображений, для решения новых вариантов использования. Эти новые варианты использования требуют собственных наборов данных изображений и инициатив по маркировке изображений.

Робототехника

Роботизированные машины на базе машинного обучения и искусственного интеллекта обучаются с использованием отслеживаемых и помеченных наборов данных для выполнения действий человека в реальном мире. Это было бы невозможно без обширных аннотаций данных.

Тегирование изображений в робототехнике поддерживает автоматизацию в биотехнологии, сельском хозяйстве, производстве и многих других отраслях. Это позволяет роботам наблюдать за своим окружением, обнаруживать интересующие объекты и идентифицировать препятствия, а также выполнять сложные операции без присмотра человека.

Централизация знаний означает возможность воспроизводить, экстраполировать и адаптировать эксперименты. Узнайте, как крупные компании, такие как Uber, делятся внутренними знаниями.

Спортивная аналитика

Теги и аннотации изображений используются в спортивной индустрии для создания алгоритмов, которые могут:

  • Выполняйте анализ движений и адаптируйте персональные фитнес-программы для спортсменов.
  • Удаленно отслеживайте прогресс в фитнес-режиме и предлагайте улучшения.
  • Оценивайте геймплей в командных видах спорта и предлагайте более оптимальные стратегии, а также анализ большого объема игровых кадров соревнующихся команд.

Редактирование и оптимизация изображений

Современные веб-сайты и веб-приложения используют большое количество изображений и должны отображать их на разных устройствах и размерах экрана. Для каждого размера экрана могут потребоваться разные вариации и размеры одного и того же дизайна изображения.

Размеченные наборы данных изображений могут помочь в обучении алгоритмов, которые автоматически редактируют изображения. Например, эти алгоритмы могут обрезать и изменять размер в зависимости от наиболее важных элементов изображения. Доступно несколько коммерческих сервисов, которые выполняют обнаружение и сегментацию объектов на лету и на основе объектов на изображении определяют лучший способ обработки изображения для соответствия определенному размеру экрана.

Методы маркировки изображений

Ручная аннотация

Аннотаторы часто маркируют изображения вручную, предоставляя текстовые аннотации для целых изображений или их частей. Поскольку ручное аннотирование изображений может служить основой для обучения алгоритмов компьютерного зрения, ручная маркировка ошибок может привести к снижению точности алгоритмов. Точность маркировки важна для обучения нейронной сети. Аннотаторы изображений часто используют инструменты, чтобы помочь им в их ручных задачах аннотации.

Проблемы ручной аннотации включают в себя:

  • Разные члены команды могут генерировать несогласованные аннотации.
  • Процесс занимает много времени и требует серьезной подготовки.
  • Это дорого и сложно масштабировать для больших наборов данных.

Полуавтоматическая аннотация

Учитывая проблемы ручной аннотации, некоторые предпочитают частично автоматизировать процесс маркировки изображений. Для некоторых задач компьютерного зрения требуется тип аннотаций, который не может быть легко достигнут людьми (например, классификация пикселей). Автоматизированные инструменты аннотирования изображений могут обнаруживать границы объектов. Хотя они экономят время, эти инструменты часто менее точны, чем человек-аннотатор.

Синтетическая аннотация

Синтетические аннотации изображений — это экономичная и точная альтернатива ручным аннотациям. Алгоритм генерирует реалистичные изображения на основе критериев оператора, автоматически предоставляя ограничивающие рамки объекта. Базы данных синтетических изображений могут выглядеть как базы данных реальных изображений с уже прикрепленными метками.

Три основных метода создания синтетических изображений:

  • Вариационный автокодер (VAE) – использует существующие данные для создания новых распределений с помощью кодировщика и декодера.
  • Генеративно-состязательная сеть (GAN) — использует две нейронные сети, работающие друг против друга. Генератор создает реалистичные изображения, а дискриминатор пытается отличить синтетические изображения.
  • Поле нейронного излучения (NeRF) — использует несколько изображений трехмерной сцены для создания изображений с новых точек зрения.

Рекомендации по маркировке изображений для проектов компьютерного зрения

Ниже приведены некоторые рекомендации по маркировке обучающих изображений.

Понять цель набора данных

Первое, что следует учитывать при подготовке набора обучающих данных, — это проблема компьютерного зрения, которую должен решить проект. Например, обучающие изображения должны охватывать все возможные варианты объекта в разных условиях и под разными углами. Алгоритмы машинного обучения более точны при обучении на различных данных и могут распознавать необычные экземпляры класса объектов (например, автомобили разного размера и цвета).

Модель ML присваивает метку всем изображениям для задач классификации изображений. Маркировка изображений для таких вариантов использования относительно проста, потому что часто нет необходимости идентифицировать несколько объектов в каждом изображении. Однако важно иметь четкие категории для различения изображений. Этот подход работает только для визуально различимых объектов.

Сосредоточьтесь на качестве изображения

Различные методы могут помочь ускорить процессы аннотирования изображений. Один из способов предотвратить проблемы — просмотреть изображения, чтобы определить шаблоны, которые могут создать проблемы для маркировки. Набор данных должен охватывать все соответствующие классы объектов и иметь последовательный подход к маркировке. Особенно важно убрать непонятные предметы. Если человеческий глаз не может легко идентифицировать объект, изображение может быть недостаточно четким для включения в набор данных.

Создайте совместный процесс

Эксперты предметной области и машинного обучения должны сотрудничать в проекте компьютерного зрения с самого начала, вместе выбирая подход к маркировке. Команда может начать с небольших партий и перейти к более крупным проектам аннотаций.

Использовать существующие наборы данных

Еще один полезный ресурс для машинного обучения — набор общедоступных обучающих наборов данных. Наборы данных изображений, такие как COCO и ImageNet, содержат миллионы изображений различных классов объектов. Для новой модели машинного обучения может потребоваться больше данных для обучения, но эти наборы данных — хорошая отправная точка, позволяющая сэкономить время и избежать необходимости создавать модель с нуля.

Заключение

В этой статье я объяснил важность маркировки изображений для индустрии искусственного интеллекта, описал варианты использования маркировки изображений и рассмотрел три метода маркировки изображений: ручная аннотация, полуавтоматическая аннотация и синтетические данные изображения.

Наконец, я предоставил рекомендации, которые помогут вам сделать проекты по маркировке изображений более эффективными:

  • Уточните цель набора данных и предоставьте наиболее подходящие примеры.
  • Убедитесь, что изображения высокого качества, объекты четко видны и недвусмысленны.
  • Создайте совместный процесс аннотирования, привлекая специалистов по данным и специалистов по маркировке.
  • Не начинайте с нуля — проверьте, существует ли набор данных изображений для вашего варианта использования.

Я надеюсь, что это будет полезно, когда вы планируете свой следующий проект компьютерного зрения.

Примечание редактора. Heartbeat — это интернет-издание и сообщество, созданное участниками и посвященное предоставлению лучших образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимая от редакции, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по данным и командам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим нашим авторам и не продаем рекламу.

Если вы хотите внести свой вклад, перейдите к нашему призыву к участию. Вы также можете подписаться на получение нашего еженедельного информационного бюллетеня (Еженедельник глубокого обучения), заглянуть в блог Comet, присоединиться к нам в Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов и событий. и многое другое, что поможет вам быстрее создавать более качественные модели машинного обучения.