Что такое аннотация данных?

Мы понимаем, что данные важны, и все согласны с тем, что чем их больше, тем лучше, поскольку мы сможем моделировать больше сценариев реального мира и повышать точность наших систем машинного обучения… Мы кратко обсудили, почему это так важно и почему хорошая стратегия работы с данными так важна. критично на уровне проекта, но еще лучше, если это касается всей компании, чтобы у большего числа команд было топливо для разработки собственных вариантов использования ИИ без необходимости создавать свои конвейеры данных и процессы с нуля… но теперь давайте посмотрим, какая часть процесса обработки данных более затратным с точки зрения времени и ресурсов, но в то же время более важным для успешной реализации.

Текстовая аннотация

Аннотация данных — это процесс, в ходе которого мы обогащаем наши данные, помечая содержимое и/или объекты наших текстов, изображений, видео и аудио «известной» информацией. Эти метки сделают наши данные умными, и наши модели машинного обучения смогут полностью понять их значение (например, изображение кошки — это кошка, Барселона — это место в тексте или газетная статья рассказывает о спорте). Наличие аннотированных данных обеспечивает первоначальную настройку для обучения модели машинного обучения тому, что ей нужно понять, и дает примеры реальных фактов о том, как различать входные данные с точными выходными данными.

Существует несколько типов процессов аннотирования данных в зависимости от проблемы, которую мы хотим решить, и имеющихся данных для этой цели. Четыре наиболее распространенных типа данных: текст, изображения, аудио и видео, и каждый из них имеет множество особенностей, различные стратегии аннотирования, инструменты и наборы навыков, необходимые для людей в цикле. Во всех них в определенной степени участвуют люди, и они необходимы для идентификации и аннотирования данных, чтобы алгоритмы могли учиться на человеческом опыте, а затем классифицировать, категоризировать, суммировать, переводить, расшифровывать или производить любые другие прогнозы.

Имея международный опыт (я начал свою инженерную карьеру с локализации и i18n-полей, создавая инструменты и общаясь с кучей иностранцев), я всегда имел дело (или два) с языками. , международные культуры и путешествия, и лично нет ничего лучше вписывающегося в мир ИИ, чем идеально разработанный вариант использования НЛП, с нюансами понимания языка, культуры и предметной области… когда все это происходит одновременно, кажется, как магия.

Язык, лингвистика и культурные особенности. Глубокое знание языка, на котором выполняются задачи аннотирования, необходимо для создания ярлыков, отражающих поведение в реальном мире. Добавьте к этому местные знания, необходимые для определения значения конкретного слова, предложения или документа, которые могут зависеть от местного контекста и могут сильно различаться в зависимости от множества факторов (местоположение, социальное восприятие, культурный фон и т. д.), и вы закончите. перед довольно сложной миссией получить почти идеальный аннотированный набор данных, который представляет реальный мир (без предвзятости), с помощью которого можно обучать вашу модель.

В отличие от других задач аннотирования (в основном изображений и видео), текстовое аннотирование требует участия человека, обладающего определенными знаниями (язык, знание предметной области/темы, другие) и имеет более широкий спектр субъективных входных данных, что делает его более сложным. с точки зрения качественных данных:

В конце концов, передовые технологии машинного обучения и самые передовые алгоритмы не могут решить реальные проблемы без нужных данных. Мы понимаем, что доступ к большим объемам данных важен, но доступ к обучаемым и высококачественным аннотированным данным в масштабе — это самое большое преимущество, которое сегодня имеют компании, раздвигающие границы ИИ.

  • Экспертиза в предметной области: это не то же самое, что категоризировать юридический текст, чем резюмировать статью о здравоохранении, и опыт и опыт людей, выполняющих такие задачи, должны отражать знания в этой области. Как бы очевидно это ни казалось, не каждая организация делает это приоритетом, и довольно часто компании получают обучающие наборы данных, которые не были тщательно обработаны и аннотированы нужными людьми, что влияет на общую производительность и точность системы машинного обучения.
  • Человеческий интеллект: иногда встречаются довольно простые бинарные задачи (положительно/отрицательно, да/нет и т. д.), но довольно часто задачи текстовых аннотаций (синтаксис корреляционных ссылок, вопросы и ответы, категоризация документов и многие другие) определенная степень «субъективности», поэтому два человека, аннотирующие один и тот же документ, могут получить разные метки. Именно здесь нам нужно ввести методы для получения наилучшего возможного обучающего набора данных и смягчения субъективного ввода и предвзятости аннотатора. От общих соглашений между аннотаторами до более продвинутых результатов моделирования ошибок для нескольких аннотаторов — это область, которая постоянно развивается и теперь начинает считаться критически важной для улучшения наших моделей.
  • Мы вышли из того времени, когда разговоры об искусственном интеллекте (ИИ) были почти научной фантастикой. В настоящее время искусственный интеллект присутствует практически везде, и реальные случаи его повседневного использования можно найти в наших приложениях для телефонов, автомобилях, финансовых продуктах, маркетинговых кампаниях, достижениях в области здравоохранения и в большинстве бизнес-решений. Ажиотаж вокруг ИИ повсюду, но обещание идеально настроенного и автоматизированного варианта использования ИИ редко оживает из-за одного менее привлекательного слова: данные!

    Мы в точке где хорошо известно, что системам искусственного интеллекта и машинного обучения (МО) требуются большие объемы данных для непрерывного изучения и выявления закономерностей и тенденций, прогнозирования результатов, категоризации и классификации данных и т. д. Задачи, с которыми люди не могут просто справиться, но алгоритмы справляются. Что еще более важно, чем количество данных, так это Качество данных, которые мы загружаем в эти системы ИИ/МО. По моему собственному опыту, это одна из основных причин многих низкопроизводительных и неточных реализаций МО. .

    В мире искусственного интеллекта существует тенденция сосредотачиваться на более сложных инженерных задачах при создании проекта искусственного интеллекта от начала до конца, создании моделей машинного обучения с нуля или повторном использовании существующих предварительно обученных моделей машинного обучения с помощью Transfer. Изучение и попытка повысить точность за счет тонкой настройки и настройки параметров при использовании доступных и бесплатных общедоступных наборов данных, которые не особенно хорошо подходят для обучения пользовательскому варианту использования... Не так много внимания уделяется задачам, связанным с данными (сбор, подготовка, очистка -up и annotation), особенно в проектах малого и среднего размера, где ресурсы ограничены. Тщательный выбор стратегии аннотирования данных (использование правильной методологии выборки для подачи исходной модели машинного обучения, обеспечение наличия высококачественных и настраиваемых аннотированных данных или даже использование более продвинутых методов активного обучения) потенциально может дать больше выигрывает, чем идеально настроенная модель, не говоря уже о том, что мы сможем лучше понять поведение наших моделей и крайние случаи, которые могут потребовать больше обучающих данных.

    Для многих небольших размеров организаций проблемы, связанные с данными, были основным препятствием для входа в пространство ИИ, и для тех, кто преодолел эти проблемы, отсутствие качественных данных стало основной причиной того, что проекты не оправдали их ожиданий. Обычно это тот случай, когда данные не были частью первоначального обсуждения при запуске проекта ИИ, компаниям любого размера необходимо приступить к разработке своих стратегий работы с данными, включая сбор данных для резервного копирования постановки задачи, сбор, очистку, аннотацию обучения и анализа, и им нужно начать думать об ИИ как о механизме, на основе которого они смогут создавать множество новых вариантов использования, от автоматизации внутренних процессов до прогнозов, которые помогут в принятии стратегических решений между отделами. Как и любому двигателю, ИИ нужно правильное топливо для эффективной работы, и именно здесь аннотация данных должна играть важную роль в любой будущей стратегии компании в отношении ИИ.

Энрик Плана
«M47 Labs»
«www.m47labs.com»

Почему аннотация данных так важна?