Взгляд изнутри на то, как передать на аутсорсинг без ущерба для качества данных

Этот пост изначально был опубликован на Labelbox.

Примечание редактора: мы очень рады поделиться этим отличным постом от наших друзей из Labelbox. Но небольшое примечание для пояснения, потому что этот формат немного отличается: ниже приводится тематическое исследование, которое включает в себя конкретные проекты и отзывы, и не является традиционным учебным пособием. Нам понравилась эта работа за ее конкретные примеры, и мы надеемся, что вы тоже! Приятного чтения.

Чтобы группы по анализу данных могли передавать аннотации на аутсорсинг управляемому поставщику рабочей силы, также известному как аутсорсинг бизнес-процессов (BPO), они сначала должны иметь инструменты и инфраструктуру для хранения и управления данными обучения. Инструменты и инфраструктура управления данными должны поддерживать группы управления продуктами НИОКР, группы маркировки, привлеченные на аутсорсинг, а также группы внутренней маркировки и анализа, работая вместе в одном централизованном месте с полностью прозрачным надзором.

Масштабирование с помощью предметной экспертизы

Существует прямая зависимость между объемом ваших тренировочных данных и размером вашей аннотационной команды. Альтернативой масштабированию вашей рабочей силы для аннотаций за счет аутсорсинга является наем внутренней группы этикетировщиков. Хотя это дорогой вариант, иногда это единственный вариант.

Например, для масштабирования конфиденциальных обучающих данных, таких как медицинские данные, с помощью защиты HIPAA, может потребоваться исключительно внутренняя маркировка персонала. Продолжая этот пример, медицинские данные, такие как компьютерная томография, должны быть помечены радиологами, которые обладают необходимыми медицинскими знаниями для правильной интерпретации данных.

Обеспокоенность аутсорсингом работы по маркировке, требующей знаний в предметной области заключается в том, что BPO не сможет предоставить специализированных этикетировщиков. Хотя есть веские причины скептически относиться к аутсорсингу сложных или нишевых наборов данных, BPO охватывают удивительно широкий спектр знаний в предметной области, и, проведя небольшое исследование, вы можете найти службу, которая предлагает специализированную службу аннотаций, способную пометить ваш набор данных на часть стоимости найма внутренней команды.

Грант Осборн, технический директор Gamurs, комплексной платформы сообщества киберспорта, основанной на искусственном интеллекте, описывает свой процесс принятия решений, связанный с использованием функции аутсорсинга Labelbox для масштабирования аннотаций в конкурентной игровой индустрии.

Gamurs разрабатывает тренера по ИИ для профессиональных игроков в видеоигры. Тренер по ИИ поможет повысить производительность игроков, изучая похожие примеры, в которых игроки неэффективны, и предложит способы повышения производительности игроков.

Первоначально Грант рассматривал возможность краудсорсинга игроков из своих крупных социальных сетей, чтобы обозначить своих фаворитов. игры. Сначала он изучил ряд популярных инструментов краудсорсинга, но быстро отверг этот вариант, потому что их доход исходит от аннотаций. Поскольку эти инструменты взимают плату за хранение в зависимости от количества ограничивающих рамок, структура ценообразования нецелесообразна в масштабе.

Затем он подумал о том, чтобы создать дешевый собственный инструмент и нанять внутреннюю команду этикетировщиков, пока не поговорил с Брайаном Ригером, соучредителем и главным операционным директором Labelbox. Гамурсу нужна была платформа для загрузки и управления изображениями нескольких игр с обнаружением объектов.

В отличие от других коммерческих инструментов маркировки, структура ценообразования Labelbox основана на трехуровневой системе: Free, Business и Enterprise. Уровни подписки классифицируются по количеству проектов машинного обучения и размеру набора данных. Эти уровни различаются по цене и доступу к определенным функциям платформы. Компания Gamurs доверила Labelbox поддерживать производство своих приложений искусственного интеллекта не только из-за его совместимой структуры ценообразования, но и из-за его ориентированного на разработчиков API.

Нам требовалось решение для конвейера машинного обучения, и Labelbox был им! - Грант Осборн, технический директор ГАМУРС

Неудивительно, что Грант изначально сомневался в том, что аутсорсинг специализированных игровых действий по Dota2 или League of Legends для BPO. «Мы хотели иметь внутреннюю группу маркировки, потому что действия компьютера сложны. Как мы собираемся использовать стороннюю компанию для маркировки простых объектов, таких как знаки остановки и деревья, для маркировки наших игр? Однако партнеры Labelbox по бизнес-стратегии посоветовали нам просто прислать руководство, и они позаботятся о том, чтобы подготовить специальную команду по аннотациям ».

«Labelbox порекомендовал два BPO, которые лучше всего соответствовали бы нашим потребностям, и сказал, что их будет больше, если мы будем заинтересованы. По оценкам BPO, для полной подготовки всех потребуется ~ 3-4 недели. Хотя эта оценка была немного оптимистичной относительно сложности материала, они смогли завершить цикл обучения примерно за 4–5 недель ».

Несмотря на кардинально разные расценки стоимости двух BPO (одна - 1,5–2 цента за ограничивающую рамку, а другая - 10–12 центов за ограничивающую рамку), Gamurs все же решила использовать сочетание обоих BPO с маркировкой из 20 человек. бригада из первого и бригада из 10 человек из второго. «Мы, вероятно, сделаем комбинацию BPO в зависимости от их сильных сторон в каждой игре. Мы заставим их прийти к согласию, и если один BPO лучше справляется с обеспечением качества, но медленнее при маркировке, мы будем использовать их для перекрестного анализа работы другой команды ».

Масштабирование с качеством данных

Обратное заблуждение при аутсорсинге экспертизы предметной области состоит в том, что все специалисты по маркировке равны, когда дело доходит до аннотирования чрезвычайно простого набора данных.

Эта точка зрения часто преуменьшает важность качества данных при маркировке. Ознакомьтесь с разделом Что такое тыква?, чтобы узнать, как обучение модели обнаружения глубоких сверточных объектов для идентификации чего-то столь простого, как тыква, на самом деле намного сложнее, чем вы можете предположить. Даже при простых задачах создания надписей, чтобы гарантировать качество данных, вы должны иметь возможность контролировать согласованность и точность надписей в разных аннотаторах и во времени.

Масштабирование этикеток без ущерба для качества данных требует прозрачности всего конвейера этикетирования. Команды специалистов по обработке данных, которые передают на аутсорсинг локально запущенные собственные инструменты, часто отправляют данные в несколько различных служб аннотации, где маркировка происходит локально, иногда в разных странах, и специалисты по обработке данных должны полагаться на этих специалистов по маркировке при отправке файлов по электронной почте. или загружать акробатические трюки через Dropbox.

Как следствие, данные становятся фрагментированными, дезорганизованными и трудными для управления, что делает их уязвимыми для проблем с безопасностью, качеством и управлением данными. Чтобы контролировать точность маркировки и согласованность аутсорсинговых услуг в режиме реального времени, такие компании, как SomaDetect, переключились с управления своими сотрудниками по аннотациям с помощью собственного инструмента на управление им через Labelbox. Labelbox - лучший в своем классе инструмент для интеграции ваших внутренних групп по маркировке и проверке с вашей командой аутсорсинга в одном централизованном месте.

Не все этикетировщики равны

Факторы, отличающие аутсорсинг, выходят далеко за рамки только предметной экспертизы, которую он обслуживает. Labelbox вручную отобрал лучшие BPO-компании по следующим критериям:

  • Прозрачность ценообразования
  • Качественное обслуживание клиентов
  • Разнообразие размеров компании, регионов обслуживания, диапазона навыков и стилей взаимодействия

Мы поговорили с Майклом Вангом, инженером по компьютерному зрению в Companion Labs. Он рассказал о своем опыте аутсорсинга на Labelbox с одним из наших рекомендуемых партнеров BPO. Он объяснил, почему аутсорсинг с помощью специальной группы этикетировщиков, в отличие от краудсорсинга случайных людей-этикетировщиков, дает более качественные данные для обучения:

Прямое соединение со специальной командой внешних специалистов по этикетированию поможет вам и вашим клиентам понять, как маркировать проект, и со временем специалисты по этикетированию станут лучше. Со случайными этикетировщиками вам каждый раз придется начинать обучение с нуля. Выделенные группы специалистов по маркировке приходят к пониманию вашего проекта, и когда вы что-то объясняете, это передается всей команде.

Перед тем, как выбрать Labelbox, Companion Labs сравнила Labelbox с ведущим конкурентом, опробовав оба API службы маркировки с точки зрения показателей качества, времени и усилий для маркировки своего проекта. Майкл сказал, что у Labelbox более качественный аутсорсинговый пул, чем у известного конкурента, использующего краудсорсинг.

Когда его спросили, как он выбирает, с кем работать среди бизнес-партнеров Labelbox, он объяснил, что Labelbox предоставил две рекомендации, которые он оценил как по показателям качества, так и по стоимости. «Оба поставщика были довольно хорошими с точки зрения качества, поэтому выбор сводился к стоимости».

Аутсорсинг на Labelbox

Управляемые услуги персонала часто являются важной частью успеха проекта искусственного интеллекта. Поэтому мы в Labelbox хотим, чтобы поставщики управляемых кадров могли предоставлять свои услуги максимально без проблем.

С помощью Labelbox команды специалистов по анализу данных, аннотаторов и менеджеров по продуктам могут прозрачно управлять небольшими проектами и экспериментами, а также сверхбольшими проектами - и все это на единой платформе. Наша цель - сделать наших клиентов максимально успешными в своих проектах AI. Нашими клиентами являются компании любого размера, создающие и использующие ИИ.

Мы работали со многими поставщиками управляемой рабочей силы, и нам ясно, что лучшие поставщики выделяются среди остальных предоставляемыми ими услугами. и клиентоориентированность их бизнеса. У нас есть тщательно отобранные партнеры по бизнес-стратегии, поэтому наши клиенты могут получать высококачественные услуги по маркировке непосредственно в рамках их проектов Labelbox.

Легкий двухэтапный процесс

В Labelbox ваши внутренние и внешние специалисты по этикетированию могут без проблем работать вместе над проектом этикетирования. Он настолько сплочен, что между ними буквально нет швов!

  1. Свяжитесь с одним из наших партнеров по персоналу, указанным здесь.
  2. Поделитесь с ними своим проектом, добавив их «идентификатор поставщика фирмы» (предоставленный партнером по персоналу).

Вот и все! Ваш проект будет отображаться как общий проект в учетной записи Labelbox партнера по персоналу, где они смогут добавлять и управлять своими собственными этикетировщиками в вашем проекте. У них будет доступ к аннотациям, просмотру аннотаций и управлению своими этикетировщиками. Самое приятное то, что ваша внутренняя команда сможет контролировать свою работу с полной прозрачностью. Для получения дополнительной информации ознакомьтесь с нашей документацией.

Посетите www.labelbox.com, чтобы бесплатно изучить Labelbox или поговорите с одним из членов нашей команды о корпоративном решении для вашего бизнеса.

Обсудите этот пост в Hacker News и Reddit

Первоначально опубликовано на medium.com 13 декабря 2018 г. Чтобы оставаться в авангарде управления данными обучения, следите за Labelbox для получения более релевантного контента.

Примечание редактора: Heartbeat - это онлайн-публикация и сообщество, созданное авторами и посвященное предоставлению первоклассных образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимая редакция, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по обработке данных и группам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим участникам и не продаем рекламу.

Если вы хотите внести свой вклад, отправляйтесь на наш призыв к участникам. Вы также можете подписаться на наши еженедельные информационные бюллетени (Deep Learning Weekly и Comet Newsletter), присоединиться к нам в » «Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов, событий и гораздо больше, что поможет вам быстрее и лучше строить модели машинного обучения.