Написано Hmrishav Bandyopadhyay и первоначально опубликовано в блоге V7 (Что такое маркировка данных и как это сделать эффективно)

Данные — это валюта будущего.

Поскольку технологии и ИИ постепенно проникают в нашу повседневную жизнь, данные и их правильное использование могут оказать значительное влияние на современное общество.

Точно аннотированные данные могут эффективно использоваться алгоритмами машинного обучения для выявления проблем и предложения работоспособных решений, что делает аннотирование данных неотъемлемой частью этого изменения.

Вот что мы рассмотрим:

  1. Что такое маркировка данных?
  2. Немаркированные данные против помеченных данных
  3. Подходы к маркировке данных
  4. Общие типы маркировки данных
  5. Как работает маркировка данных
  6. Рекомендации по маркировке данных

Пойдем!

💡Мы всегда ищем талантливых технических писателей. Хотели бы вы внести свой вклад в блог V7? Отправьте свое портфолио на [email protected]

Что такое маркировка данных?

Маркировка данных относится к процессу добавления тегов или меток к необработанным данным, таким как изображения, видео, текст и аудио.

Эти теги формируют представление о том, к какому классу объектов принадлежат данные, и помогают модели машинного обучения научиться идентифицировать этот конкретный класс объектов, когда они встречаются в данных без тега.

Что такое «обучающие данные» в машинном обучении?

Обучающие данные относятся к данным, которые были собраны для передачи модели машинного обучения, чтобы помочь модели узнать больше о данных.

Обучающие данные могут иметь различную форму, включая изображения, голос, текст или признаки в зависимости от используемой модели машинного обучения и решаемой задачи.

Он может быть аннотирован или неаннотирован. Когда обучающие данные аннотированы, соответствующая метка называется базовой истиной.

💡 Совет для профессионалов. Вам нужны качественные наборы данных для маркировки и обучения моделей? Ознакомьтесь со списком 65+ наборов данных для машинного обучения.

«Наземная истина» — это термин, используемый для информации, достоверность которой заранее известна.

Немаркированные данные против помеченных данных

Набор обучающих данных полностью зависит от типа задачи машинного обучения, на которой мы хотим сосредоточиться. Алгоритмы машинного/глубокого обучения можно разделить на три класса по типам данных, которые им требуются.

контролируемое обучение

Обучение с учителем, наиболее распространенный тип, представляет собой тип алгоритма машинного обучения, для обучения которого требуются данные и соответствующие аннотированные метки. Под эту парадигму подпадают такие популярные задачи, как классификация изображений и сегментация изображений.

Типичная процедура обучения состоит из подачи аннотированных данных на машину, чтобы помочь модели изучить и протестировать обученную модель на неаннотированных данных.

Чтобы определить точность такого метода, на этапе тестирования алгоритма обычно используются аннотированные данные со скрытыми метками. Таким образом, аннотированные данные абсолютно необходимы для контролируемого обучения моделей машинного обучения.

Неконтролируемое обучение

При неконтролируемом обучении предоставляются неаннотированные входные данные, и модель обучается, не зная меток, которые могут иметь входные данные.

Распространенные неконтролируемые алгоритмы обучения включают в себя автоэнкодеры, у которых выходные данные такие же, как и входные. Неконтролируемые методы обучения также включают алгоритмы кластеризации, которые группируют данные в n кластеров, где n — это гиперпараметр.

Полуконтролируемое обучение

При полууправляемом обучении для обучения модели используется комбинация как аннотированных, так и неаннотированных данных.

Хотя это снижает стоимость аннотирования данных за счет использования обоих типов данных, обычно во время обучения делается много серьезных предположений об обучающих данных. Случаи полуконтролируемого обучения включают классификацию белковых последовательностей и анализ интернет-контента.

💡 Совет для профессионалов: погрузитесь глубже и ознакомьтесь с разделом Обучение с учителем и без учителя: в чем разница?

Что такое «Человек в цикле» (HITL)?

Термин «человек в цикле» чаще всего относится к постоянному наблюдению и проверке результатов модели ИИ человеком.

Есть два основных способа, которыми люди становятся частью цикла машинного обучения:

  1. Маркировка данных обучения. Аннотаторы-люди должны маркировать данные обучения, которые передаются в (контролируемые/полуконтролируемые) модели машинного обучения.
  2. Обучение модели. Специалисты по данным обучают модель, постоянно контролируя ее детали, такие как функция потерь и прогнозы. Время от времени производительность модели и прогнозы проверяются человеком, а результаты проверки возвращаются в модель.

Подходы к маркировке данных

Существуют различные подходы к маркировке. в зависимости от постановки задачи, сроков проекта и количества людей, которые связаны с работой.

Хотя внутренняя маркировка и краудсорсинг очень распространены, терминология также может быть расширена, чтобы включать новые формы маркировки и аннотации, которые используют ИИ и активное обучение для выполнения задачи.

Наиболее распространенные подходы к аннотации данных перечислены ниже.

Внутренняя маркировка данных

Внутренняя маркировка данных обеспечивает наивысшее возможное качество маркировки и обычно выполняется учеными и инженерами данных, нанятыми в организации.

Качественная маркировка имеет решающее значение для таких отраслей, как страхование или здравоохранение, и часто требует консультаций со специалистами в соответствующих областях для правильной маркировки данных.

💡 Совет для профессионалов: ознакомьтесь с 21+ лучших медицинских наборов данных для компьютерного зрения, если вы ищете медицинские данные.

Как и ожидается от внутренней маркировки, с повышением качества аннотаций время, необходимое для аннотирования, резко увеличивается, в результате чего весь процесс маркировки и очистки данных выполняется очень медленно.

Краудсорсинг

Краудсорсинг — это процесс получения аннотированных данных с помощью большого количества фрилансеров, зарегистрированных на краудсорсинговой платформе.

Аннотированные наборы данных состоят в основном из тривиальных данных, таких как изображения животных, растений и природной среды, и они не требуют дополнительных знаний. Поэтому задача аннотирования простого набора данных часто передается платформам, на которых зарегистрированы десятки тысяч аннотаторов данных.

Аутсорсинг

Аутсорсинг — это нечто среднее между краудсорсингом и внутренней маркировкой данных, когда задача аннотирования данных передается организации или частному лицу.

Одним из преимуществ аутсорсинга для отдельных лиц является то, что они могут быть оценены по конкретной теме до того, как работа будет передана.

Этот подход к созданию наборов данных аннотаций идеально подходит для проектов, которые не имеют большого финансирования, но требуют значительного качества аннотирования данных.

💡 Совет для профессионалов. V7 сотрудничает с сетью высококвалифицированных профессиональных аннотаторов, которые помогут вам быстрее маркировать данные. Узнайте больше об услугах V7 Labeling Services.

Машинная аннотация

Одной из самых новых форм аннотации является машинная аннотация. Аннотирование на основе машин относится к использованию инструментов аннотирования и автоматизации, которые могут резко увеличить скорость аннотирования данных без ущерба для качества.

Хорошей новостью является то, что недавние разработки в области автоматизации традиционных инструментов машинного аннотирования — с использованием неконтролируемых и полуконтролируемых алгоритмов машинного обучения — помогли значительно снизить нагрузку на людей, занимающихся этикетированием.

Алгоритмы без учителя, такие как кластеризация и недавно разработанные алгоритмы с полуучителем для маркировки данных ИИ, такие как активное обучение, — это инструменты, которые могут значительно сократить время аннотирования.

Общие типы маркировки данных

Из того, что мы видели до сих пор, маркировка данных полностью связана с задачей, которую мы хотим, чтобы алгоритм машинного обучения выполнял с нашими данными.

Например -

Если нам нужен алгоритм машинного обучения для задачи обзор дефектов, мы скармливаем ему данные, такие как изображения ржавчины или трещин. Соответствующая аннотация будет представлять собой многоугольники для локализации этих трещин или коррозии и теги для их именования.

Вот некоторые распространенные домены ИИ и соответствующие им типы аннотаций данных.

Компьютерное зрение

Компьютерное зрение (или исследования, помогающие компьютерам видеть окружающий мир) требует аннотированных визуальных данных в виде изображений. Аннотации данных в компьютерном зрении могут быть разных типов, в зависимости от визуальной задачи, которую мы хотим, чтобы модель выполняла.

Общие типы аннотаций данных в зависимости от задачи перечислены ниже.

Классификация изображений. Аннотации данных для классификации изображений влекут за собой добавление тега к обрабатываемому изображению. Количество уникальных тегов во всей базе данных — это количество классов, которые может классифицировать модель.

Проблемы классификации можно разделить на:

  • Бинарная классификация классов (состоит всего из двух тегов)
  • Мультиклассовая классификация (которая содержит несколько тегов)

Кроме того, можно также увидеть классификацию с несколькими метками, особенно в случае обнаружения болезни, и относится к каждому изображению, имеющему более одного тега.

Сегментация изображения. В Сегментации изображения задача алгоритма компьютерного зрения состоит в том, чтобы отделить объекты на изображениях от их фона и других объектов на том же изображении. Обычно это означает карту пикселей того же размера, что и изображение, содержащее 1, где объект присутствует, и 0, где аннотация еще не создана.

Для сегментации нескольких объектов на одном изображении пиксельные карты для каждого объекта объединяются по каналам и используются в качестве исходных данных для модели.

Обнаружение объектов: Обнаружение объектов относится к обнаружению объектов и их местоположений с помощью компьютерного зрения.

Аннотация данных при обнаружении объектов сильно отличается от таковой в классификации изображений, где каждый объект аннотируется с помощью ограничивающих рамок. Ограничивающая рамка — это наименьший прямоугольный сегмент, содержащий объект на изображении. Аннотации ограничивающей рамки обычно сопровождаются тегами, где каждой ограничивающей рамке присваивается метка на изображении.

Как правило, координаты этих ограничивающих рамок и соответствующие теги для них хранятся в отдельном файле JSON в формате словаря, где номер изображения/идентификатор изображения является ключом словаря.

Оценка позы. Оценка позы относится к использованию инструментов компьютерного зрения для оценки позы человека на изображении. Оценка позы выполняется путем обнаружения ключевых точек на теле и сопоставления этих ключевых точек для получения позы. Соответствующая основная истина для модели оценки позы, таким образом, будет ключевыми точками изображения. Это будут простые данные координат, которые помечены с помощью тегов, где каждая координата указывает местоположение конкретной ключевой точки, идентифицированной тегом, на соответствующем изображении.

💡 Совет для профессионалов: ознакомьтесь с разделом 15+ лучших идей проекта компьютерного зрения для начинающих, чтобы создать собственную модель компьютерного зрения менее чем за час.

Обработка естественного языка

Обработка естественного языка (или сокращенно НЛП) относится к анализу человеческих языков и их форм во время взаимодействия как с другими людьми, так и с машинами. Будучи изначально частью компьютерной лингвистики, НЛП получило дальнейшее развитие с помощью искусственного интеллекта и глубокого обучения.

Вот некоторые из подходов к маркировке данных НЛП.

Аннотации сущностей и связывание. Аннотации сущностей относятся к аннотациям сущностей или конкретных функций в немаркированном корпусе данных.

Слово «Сущность» может принимать разные формы в зависимости от поставленной задачи.

Для аннотации имен собственных мы использовали аннотацию именованных объектов, которая относится к идентификации и пометке имен в тексте. Для анализа фраз мы называем процесс тегированием ключевых фраз, когда ключевые слова или ключевые фразы из текста аннотируются. Для анализа и аннотирования функциональных элементов любого текста, таких как глаголы, существительные, предлоги, мы используем теги частей речи, сокращенно теги POS.

Маркировка POS используется при синтаксическом анализе, машинном переводе и генерации лингвистических данных.

За аннотацией сущностей следует связывание сущностей, когда аннотированные сущности связываются с репозиториями данных вокруг них, чтобы присвоить уникальный идентификатор каждой из этих сущностей. Это особенно важно, когда текст содержит данные, которые могут быть неоднозначными и должны быть устранены.

Связывание сущностей часто используется для семантической аннотации, когда семантическая информация сущностей добавляется в виде аннотаций.

Классификация текста. Подобно классификации изображений, когда мы назначаем метку данным изображения, при классификации текста мы назначаем одну или несколько меток блокам текста.

В то время как при аннотации и связывании объектов мы выделяем объекты внутри каждой строки текста, при классификации текста текст рассматривается как единое целое и ему присваивается набор тегов. Типы классификации текста включают классификацию на основе тональности (для анализа тональности) и классификацию на основе темы, которую текст хочет передать (для категоризации темы).

Фонетическая аннотация. Фонетическая аннотация относится к маркировке запятых и точек с запятой, присутствующих в тексте, и особенно необходима в чат-ботах, которые генерируют текстовую информацию на основе предоставленных им входных данных. Запятые и остановки в непреднамеренных местах могут изменить структуру предложения, повышая важность этого шага.

Аудио аннотация

Аудиоаннотации необходимы для правильного использования аудиоданных в задачах машинного обучения, таких как идентификация говорящего и извлечение лингвистических тегов на основе аудиоинформации. В то время как идентификация говорящего представляет собой простое добавление метки или тега к аудиофайлу, лингвистические данные аннотации состоят из более сложной процедуры.

Для аннотации лингвистических данных выполняется первая аннотация лингвистической области, поскольку ожидается, что ни один звук не будет содержать 100-процентную речь. Окружающие звуки помечаются и создается расшифровка речи для дальнейшей обработки с помощью алгоритмов НЛП.

Как работает маркировка данных

Процессы маркировки данных работают в следующем хронологическом порядке:

  1. Сбор данных. Собираются необработанные данные, которые будут использоваться для обучения модели. Эти данные очищаются и обрабатываются для формирования базы данных, которую можно напрямую скормить модели.
  2. Тегирование данных. Различные подходы к маркировке данных используются для маркировки данных и связывания их с значимым контекстом, который машина может использовать в качестве достоверной информации.
  3. Обеспечение качества. Качество аннотаций к данным часто определяется точностью тегов для конкретной точки данных и точностью координат точек для ограничивающих рамок и аннотаций ключевых точек. Алгоритмы контроля качества, такие как алгоритм консенсуса и альфа-тест Кронбаха, очень полезны для определения средней точности этих аннотаций.

💡 Совет для профессионалов: просмотрите 20+ наборов данных компьютерного зрения с открытым исходным кодом, чтобы найти больше качественных данных.‍

Маркировка данных с помощью V7

V7 предоставляет нам широкий набор инструментов, которые необходимы для аннотирования и маркировки данных, что позволяет нам выполнять точные аннотации для сегментации, классификации, обнаружения объектов или оценки позы с молниеносной скоростью.

Кроме того, V7 позволяет вам обучать свои модели в самой сети, делая весь процесс создания модели ИИ быстрым и простым.

Вот краткое пошаговое руководство, которому вы можете следовать, чтобы научиться маркировать данные с помощью V7.

Поиск качественных данных. Первый шаг к получению высококачественных обучающих данных — высококачественные необработанные данные. Необработанные данные должны быть предварительно обработаны и очищены, прежде чем они будут отправлены для аннотаций.

Загрузите свои данные: после сбора данных загрузите необработанные данные в V7. Перейдите в Новый набор данных и дайте ему имя.

Добавьте свои данные в следующем разделе и добавьте классы, которые вы хотите пометить, вместе с типом необходимой аннотации.

Забыли добавить нужный вам класс?

Не волнуйтесь — вы всегда можете добавить их позже!

Аннотирование. Лаборатория V7 предлагает множество инструментов для маркировки данных, которые помогают аннотировать данные машинного обучения и выполнять задачи по маркировке данных.

Давайте взглянем на инструмент ограничивающих рамок и инструменты автоматического комментирования некоторых данных, которые мы загрузили.

Инструмент «Ограничивающая рамка

Инструмент ограничивающей рамки используется, чтобы помочь нам разместить ограничивающие рамки на объектах и ​​пометить их соответствующим образом.

Вот пример его использования:

💡 Подробнее: Аннотирование с помощью ограничивающих рамок: рекомендации по обеспечению качества

Инструмент автоаннотирования

Инструмент автоматического аннотирования — это специальная функция V7, которая отличает его от других аннотаторов. Он может автоматически захватывать мелкозернистые карты сегментации из изображений, что делает его одним из самых полезных инструментов для сегментации наземных карт.

Пример мощного инструмента автоаннотирования можно увидеть здесь:

Обучите свою модель. Создайте свою нейронную сеть и назовите ее соответствующим образом. Обучите свою модель на сгенерированных вами аннотированных данных.

Просмотрите и исправьте аннотации. Проблемы с производительностью модели или неверные прогнозы? Просмотрите свои аннотации, чтобы убедиться, что вы ничего не пропустили в своем наборе обучающих данных! Вы всегда можете вернуться, чтобы повторно аннотировать и правильно пометить образцы данных.

Переобучите модель. Повторно обучите модель на новых аннотированных данных.

Экспорт файлов. Легко экспортируйте аннотации к данным с помощью кнопки экспорта вверху:

Рекомендации по маркировке данных

Поскольку контролируемое обучение сегодня является наиболее распространенной формой машинного обучения, маркировка данных встречается почти на каждом рабочем месте, где говорится об ИИ.

Вот некоторые из лучших практик по маркировке данных для ИИ, чтобы убедиться, что ваша модель не рушится из-за плохих данных:

  1. Правильный сбор и очистка набора данных. Говоря об машинном обучении, мы должны позаботиться о данных в первую очередь. Данные должны быть разнообразными, но предельно специфичными для постановки задачи. Разнообразные данные позволяют нам делать выводы о моделях машинного обучения в нескольких реальных сценариях, сохраняя при этом специфичность, что снижает вероятность ошибок. Точно так же соответствующие проверки смещения предотвращают переподгонку модели к конкретному сценарию.
  2. Правильный подход к аннотации. Следующим важным моментом для маркировки данных является назначение задачи маркировки. Аннотируемые данные должны быть помечены с помощью внутренней маркировки, аутсорсинга или краудсорсинга. Правильный выбор подхода к маркировке данных помогает контролировать бюджет, не снижая точности аннотаций.
  3. Проверки QA: проверки обеспечения качества являются абсолютно обязательными для данных, которые были помечены с помощью краудсорсинга или аутсорсинга. Проверки QA предотвращают передачу ложных меток и неправильно помеченных данных в алгоритмы ML. Неправильная и неточная аннотация может легко превратиться в шум и полностью разрушить надежную модель машинного обучения.

Обозначение данных: TL;DR

Мы говорили о формах аннотирования данных, общих подходах к аннотированию данных и некоторых передовых методах аннотирования.

Вот краткое изложение ключевых моментов, которые мы рассмотрели.

Почти все алгоритмы ИИ работают, исходя из предположения, что наземные данные, которые им предоставляются, абсолютно точны. Неточности в аннотации данных людьми часто приводят к тому, что эти модели не могут работать с максимальной эффективностью, что снижает общую точность прогноза.

Таким образом, маркировка и аннотация данных представляют собой одну из самых больших проблем, с которыми сегодня сталкивается ИИ, препятствуя широкомасштабной интеграции ИИ в отрасли. Точная и тщательная аннотация данных, которая может выявить лучшее в любой модели ML, всегда пользуется большим спросом и является фундаментальной частью любого успешного проекта ML.