Инструменты аннотирования данных для машинного обучения быстро развиваются. В области разработки технических решений в CloudFactory мы видим новые инструменты и новые функции почти каждый месяц. Одной из новых функций является автоматизация, также известная как предварительная аннотация или автоматическая маркировка. В этой статье мы сосредоточимся на некоторых его преимуществах и недостатках.

Что такое автоматическая маркировка?

Автоматическая маркировка – это функция, содержащаяся в инструментах аннотирования данных, которая применяет искусственный интеллект (ИИ) для обогащения, аннотирования или маркировки набора данных. Инструменты с этой функцией дополняют работу людей в цикле, чтобы сэкономить время и деньги на маркировке данных для машинного обучения.

Большинство инструментов позволяют загружать в инструмент предварительно аннотированные данные. Более продвинутые инструменты, которые развиваются в платформы (например, инструмент плюс комплект для разработки программного обеспечения или SDK), позволяют вам использовать искусственный интеллект или добавить в инструмент свой собственный алгоритм для улучшения процесса обогащения данных за счет автоматической маркировки данных.

Другие инструменты предлагают модели прогнозирования, которые предлагают аннотации, чтобы работники могли их проверить. Некоторые функции используют встроенные нейронные сети, которые могут учиться на каждой сделанной аннотации. Все эти функции могут сэкономить время и ресурсы для групп машинного обучения и окажут глубокое влияние на рабочие процессы аннотирования данных.

Основные преимущества автоматической маркировки

В нашей работе с организациями, использующими инструменты для аннотирования изображений для машинного обучения, мы обнаружили, что автоматическая маркировка может быть полезна, когда она применяется в рабочем процессе аннотирования данных двумя способами:

1) Предварительно аннотируйте некоторые или все ваши наборы данных. Работники автоматизируют просмотр, исправление и завершение аннотаций. Автоматизация не может аннотировать все; будут исключения и крайние случаи. Это также далеко от совершенства, поэтому вы должны планировать, чтобы люди могли делать обзоры и исправления по мере необходимости.

2) Сократите объем работы, отправляемой людям. Модель автоматической маркировки может назначать уровень достоверности на основе варианта использования, сложности задачи и других факторов. Он обогащает набор данных аннотациями и отправляет аннотации с более низкими показателями достоверности человеку для просмотра или исправления.

Мы проводили временные эксперименты: одна команда использовала инструменты с функцией автоматизации, а другая команда вручную аннотировала те же данные. В некоторых случаях мы видели, что автоматическая маркировка дает результаты низкого качества, что увеличивает время, необходимое для выполнения задачи аннотации. В других случаях это послужило полезной отправной точкой и сократило время выполнения задачи.

В одном эксперименте по добавлению аннотаций к изображениям автоматическая маркировка в сочетании с просмотром и улучшениями, выполняемыми человеком, была на 10 % быстрее, чем процесс маркировки, выполняемый на 100 % вручную. Эта экономия времени увеличилась на 40-50% быстрее, поскольку автоматизация со временем научилась.

Он также имел погрешность более пяти пикселей для транспортных средств и пропускал объекты, которые находились дальше всего от камеры. Как вы можете видеть на изображении, функция автоматической маркировки пометила мусорное ведро как человека. Важно помнить, что прогнозы перед аннотацией основаны на существующих моделях, и любые ошибки в автоматической маркировке отражают точность этих моделей.

Некоторые задачи созрели для предварительной аннотации. Например, если вы используете пример из нашего эксперимента, вы можете использовать предварительную аннотацию для маркировки изображений, а группа специалистов по маркировке данных может определить, следует ли изменить размер или удалить метки или ограничивающие рамки. Это сокращение времени маркировки может быть полезным для команды, которой необходимо аннотировать изображения при сегментации на уровне пикселей.

Наш вывод из экспериментов заключается в том, что применение автоматической маркировки требует творческого подхода. Мы обнаруживаем, что наши клиенты, которые успешно используют его, готовы экспериментировать, ошибаться и менять свой процесс по мере необходимости.

Суть автоматической маркировки

Автоматическая маркировка меняет правила игры, но это не слэм-данк. Как и большинство решений на основе ИИ, для успешной экономии времени и ресурсов требуется творческий подход и итерация. Использование этих функций экономит время на аннотации, но вам все равно придется выполнять проверки качества выполненной работы.

Мы ожидаем, что автоматическая маркировка будет продолжать улучшаться, поэтому нужно следить за этой областью, готовясь к следующему проекту машинного обучения. Чтобы узнать больше об инструментах аннотирования данных, ознакомьтесь с Инструменты аннотирования данных для машинного обучения (Руководство по развитию).

Первоначально опубликовано на https://blog.cloudfactory.com.