Руководство по аутсорсингу без ущерба для качества данных

Чтобы команды специалистов по обработке и анализу данных передавали аннотации поставщику управляемой рабочей силы, также известному как аутсорсер бизнес-процессов (BPO), они должны сначала иметь инструменты и инфраструктуру для хранения и управления данными обучения. Инструменты и инфраструктура управления данными должны поддерживать группы управления продуктами R&D, аутсорсинговые группы по маркировке, а также внутренние группы по маркировке и проверке, работающие вместе в одном централизованном месте с полностью прозрачным надзором.

Масштабирование с помощью предметной экспертизы

Существует прямая зависимость между объемом ваших обучающих данных и размером вашей команды аннотаторов. Альтернативой масштабированию вашей рабочей силы по аннотациям за счет аутсорсинга является наем внутренней команды этикетировщиков. Хотя это дорогой вариант, иногда это единственный вариант. Например, для масштабирования конфиденциальных обучающих данных, таких как медицинские данные с защитой HIPAA, может потребоваться исключительно внутренняя рабочая сила для маркировки. Продолжая этот пример, медицинские данные, такие как компьютерная томография, должны быть помечены радиологами, имеющими необходимый медицинский опыт для правильной интерпретации данных. заключается в том, что BPO не сможет предоставить специализированных этикетировщиков. Хотя есть веские причины скептически относиться к аутсорсингу сложных или нишевых наборов данных, BPO охватывают удивительно широкий спектр предметных знаний, и после небольшого исследования вы можете найти тот, который предлагает специализированную услугу аннотирования, способную маркировать ваш набор данных в кратчайшие сроки. часть затрат, необходимых для найма внутренней команды.

Грант Осборн, технический директор Gamurs, комплексной платформы киберспортивного сообщества, работающей на основе искусственного интеллекта, описывает свой процесс принятия решений, связанный с использованием функции аутсорсинга Labelbox для масштабирования аннотаций в конкурентной игровой индустрии. Gamurs разрабатывает тренера по искусственному интеллекту для профессиональных игроков в видеоигры. Тренер по искусственному интеллекту поможет повысить производительность геймера, изучая аналогичные примеры, в которых игроки неэффективны, и предложит способы повышения производительности геймера.

Первоначально Грант рассматривал возможность краудсорсинга геймеров из своих крупных социальных сетей, чтобы пометить их любимые игры на выбор. Сначала он изучил ряд популярных инструментов краудсорсинга, но быстро отказался от этого варианта, поскольку они приносят доход за счет аннотаций.

«Эти инструменты взимают плату за хранение в зависимости от количества ограничивающих рамок. А поскольку у нас будут миллионы этикеток, такая структура ценообразования нецелесообразна».

Затем он подумал о создании дешевого собственного инструмента и найме внутренней команды этикетировщиков, пока не поговорил с Брайаном Ригером, соучредителем и главным операционным директором Labelbox. Gamurs нужна была платформа для загрузки и обработки изображений нескольких игр с обнаружением объектов. В отличие от других коммерческих инструментов для маркировки, структура ценообразования Labelbox основана на трехуровневой системе: Free, Business и Enterprise. Уровни подписки классифицируются по количеству проектов машинного обучения и размеру набора данных. Эти уровни различаются по цене и доступу к определенным функциям платформы.

«Мне больше всего нравится в Labelbox простота API. Наличие API, ориентированного на разработчиков, упрощает создание моделей».

«Нам нужно было конвейерное решение для машинного обучения, и Labelbox — это то, что нужно!» — Грант Осборн, технический директор GAMURS.

Неудивительно, что Грант поначалу сомневался в передаче специализированных игровых действий в Dota 2 или League of Legend BPO. «Мы хотели иметь внутреннюю команду по маркировке, потому что компьютерные действия сложны. Как мы собираемся заставить стороннюю компанию, привыкшую маркировать простые объекты, такие как знаки остановки и деревья, маркировать наши игры? Тем не менее, партнеры Labelbox по бизнес-процессам сказали нам просто прислать руководство, и они справятся с тем, чтобы специальная группа по аннотации ввела их в курс дела».

«Labelbox порекомендовал два BPO, которые лучше всего соответствовали бы нашим потребностям, и сказал, что если мы заинтересуемся, их может быть больше. По оценкам BPO, для полного обучения всех потребуется около 3–4 недель. Хотя эта оценка была немного оптимистичной для сложности материала, они смогли завершить цикл обучения примерно за 4–5 недель». Несмотря на совершенно разные ценовые предложения двух BPO (один из которых составляет 1,5–2 цента за ограничивающую рамку, а другой — 10–12 центов за ограничивающую рамку), Gamurs все же решил использовать сочетание обоих BPO с командой из 20 человек. от первого и команда маркировки из 10 человек от второго.

«Возможно, мы создадим комбинацию BPO в зависимости от их сильных сторон в каждой игре. Мы заставим их прийти к консенсусу, и если один BPO лучше с точки зрения обеспечения качества, но медленнее с маркировкой, мы будем использовать их для перекрестной проверки работы другой команды».

Масштабирование с качеством данных

Обратное неправильное представление об аутсорсинге предметной экспертизы состоит в том, что все специалисты по маркировке равны, когда дело доходит до аннотирования чрезвычайно простого набора данных. Эта точка зрения часто преуменьшает важность качества данных при маркировке. Прочтите раздел Что такое тыква?, чтобы узнать, как обучение модели глубокого сверточного обнаружения объектов распознавать что-то такое простое, как тыква, на самом деле намного сложнее, чем вы думаете. Даже при простых задачах маркировки, чтобы обеспечить качество данных, вы должны иметь возможность контролировать согласованность и точность меток между аннотаторами и с течением времени.

Масштабируемая маркировка без ущерба для качества данных требует прозрачности во всем конвейере маркировки. Команды специалистов по данным, которые используют аутсорсинг для своих внутренних инструментов, часто отправляют данные в несколько различных служб аннотирования, где маркировка происходит локально, иногда в разных странах, и специалисты по данным должны полагаться на этих специалистов по маркировке для отправки файла по электронной почте или заниматься загрузкой акробатики через Dropbox.

Следовательно, данные становятся фрагментированными, неорганизованными и сложными в управлении, что делает их уязвимыми для проблем с безопасностью данных, качеством данных и управлением данными. Чтобы контролировать точность маркировки и согласованность аутсорсинговых услуг в режиме реального времени, такие компании, как SomaDetect, переходят от управления своими аннотаторами с помощью собственного инструмента к управлению ими через Labelbox. Labelbox лучше всего подходит для интеграции ваших внутренних команд по маркировке и проверке с вашей командой аутсорсинга в одном централизованном месте.

Не все этикетировщики одинаковы

Факторы, которые отличают аутсорсинг, выходят далеко за рамки только предметной экспертизы, которую он предоставляет. Labelbox вручную отобрал лучшие фирмы BPO на основе следующих критериев:

  • Прозрачность ценообразования
  • Качественное обслуживание клиентов
  • Разнообразие по размеру компании, регионам обслуживания, диапазону навыков и стилям взаимодействия

Мы поговорили с Майклом Вангом, инженером по компьютерному зрению в Companion Labs, который рассказал нам о своем опыте аутсорсинга Labelbox с одним из наших рекомендованных партнеров BPO. Он объяснил, почему аутсорсинг со специальной командой маркировщиков, в отличие от краудсорсинга случайных лейблеров, дает более качественные обучающие данные.

«Прямая связь со специальной командой аутсорсинговых этикетировщиков поможет вам и вашим клиентам понять, как маркировать проект, а маркировщики со временем становятся лучше. При использовании случайных меток вам придется каждый раз начинать обучение с нуля. Выделенные команды этикетировщиков начинают понимать ваш проект, и когда вы что-то объясняете, это передается всей команде». — Майкл Ван

Прежде чем выбрать Labelbox, Companion Labs сравнила Labelbox с ведущим конкурентом, опробовав оба API-интерфейса службы маркировки с точки зрения показателей качества, времени и усилий для маркировки своего проекта. Майкл сказал, что у Labelbox более качественный аутсорсинговый пул, чем у известного конкурента, использующего краудсорсинг.

Когда его спросили, как он выбирает, с кем работать среди BPO-партнеров Labelbox, он объяснил, что Labelbox предоставил две рекомендации, которые он оценил как по показателям качества, так и по стоимости. «Оба провайдера были потрясающими с точки зрения качества, поэтому выбор зависел от стоимости».

Аутсорсинг на Labelbox

Услуги управляемой рабочей силы часто являются важной частью успеха проекта ИИ. Поэтому мы в Labelbox хотим, чтобы поставщики управляемой рабочей силы могли предоставлять свои услуги как можно проще. С помощью Labelbox группы специалистов по обработке и анализу данных, аннотаторов и менеджеров по продуктам могут прозрачно управлять небольшими проектами и экспериментами до сверхкрупных проектов на одной платформе. Наша цель — сделать наших клиентов максимально успешными в своих проектах ИИ. Нашими клиентами являются компании всех размеров, разрабатывающие и эксплуатирующие искусственный интеллект.

Мы работали со многими поставщиками управляемой рабочей силы, и нам ясно, что лучшие поставщики выделяются среди остальных своими услугами, которые они предоставляют. и клиентоориентированный характер их бизнеса. У нас есть тщательно отобранные партнеры BPO, чтобы наши клиенты могли получать высококачественные услуги по этикетированию непосредственно в своих проектах Labelbox.

В Labelbox ваши внутренние и внешние этикетировщики могут беспрепятственно работать вместе над проектом этикетирования. Это так сплочено, что между ними буквально нет шва!

Легкий двухэтапный процесс

  1. Свяжитесь с одним из наших партнеров по трудоустройству, перечисленных здесь.
  2. Поделитесь с ними своим проектом, добавив их «Идентификатор поставщика фирмы» (предоставляется партнером по рабочей силе).

Это действительно так! Ваш проект будет отображаться как общий проект в учетной записи Labelbox партнера по рабочей силе, где они смогут добавлять и управлять своими собственными лейблами в вашем проекте. У них будет доступ к аннотациям, просмотру аннотаций и управлению своими ярлыками. Самое приятное то, что ваша внутренняя команда сможет контролировать свою работу с полной прозрачностью. Для получения дополнительной информации ознакомьтесь с нашими документами.

Начать работу с Labelbox

Посетите www.labelbox.com, чтобы бесплатно изучить Labelbox, или поговорите с одним из членов нашей команды о корпоративном решении для вашего бизнеса.

Первоначально опубликовано на medium.com 13 декабря 2018 г.