Какие таланты вам нужны, чтобы создать успешную команду машинного обучения?

«Организация на самом деле ничего не делает.

Планы тоже ничего не дают.

Теории управления не имеют большого значения.

Усилия увенчаются успехом или потерпят неудачу из-за вовлеченных людей.

Только привлекая лучших людей, ты совершишь великие дела».

— Колин Пауэлл

Машинное обучение — это сложно. Это многовариантный процесс с множеством движущихся частей, а это значит, что в конвейере есть много мест, которые могут привести к тому, что проект пойдет не так.

Было бы ошибкой думать, что мы можем просто добавить в команду нескольких специалистов по данным и специалистов по машинному обучению и ожидать, что они добьются успеха.

Для успешного развертывания и поддержки модели машинного обучения требуется сообщество.

Недавно у меня была возможность присутствовать на круглом столе с руководителями некоторых из лучших в мире команд по машинному обучению.

Вы знаете, просто случайное обсуждение, вращающееся вокруг темы того, как эти команды успешно отправили модели в производство, которые обеспечивают реальную ценность для бизнеса.

В ходе обсуждения проблем, инструментов и удивительных открытий, связанных с масштабным машинным обучением, у нас была возможность узнать, как команды из Uber, TheRealReal и WorkFusion структурируют свою команду.

Структура команды

Тяжелая работа не заменит того, с кем вы работаете и над чем вы работаете.

— Навал Равикант

Наука о данных — это междисциплинарный вид спорта. И основная проблема, с которой сталкиваются организации, заключается в том, кто может создать команду, которая может выявлять и решать проблемы, создавать комплексные системы и приносить пользу с помощью данных.

Люди в командах данных часто носят много шляп, и правильное соотношение талантов в команде имеет решающее значение.

Один из подходов заключается в том, чтобы разделить ученых и инженеров и найти способ связать их вместе, но, как рассказал Арт Строк из WorkFusion, поскольку эти команды часто говорят на разных языках, это может вызвать множество проблем, которых можно избежать.

Команда Арта построила платформу, которая автоматизирует различные процессы для компании, выстраивая модульные решения для различных проблем, с которыми сталкиваются их заинтересованные стороны.

Искусство отмечает, что:

«Мы поняли, что лучше интегрировать их вместе и работать над одним продуктом или целью… мы видели, что эта кросс-функциональная команда, которая объединяет эти роли, становится еще более успешной».

Сотрудники WorkFusion пришли к выводу, что важно иметь в команде разные наборы навыков. Помимо специалистов по данным и инженеров по машинному обучению, в их командах есть:

  • Менеджер по продукту, который определяет план развития продукта.
  • Инженер данных для создания конвейеров данных
  • Инженер по контролю качества, чтобы убедиться, что данные поступают туда, куда им нужно, и что модель ведет себя так, как планировалось (не во всех командах есть такой человек, может быть просто кто-то в команде, который меняет свою шляпу, чтобы играть эту роль). )
  • ML Architectдля решений, сложные для продумывания высокоуровневой архитектуры с технической точки зрения.

Команда Криса Броссмана в TheRealReal стремится как можно быстрее получить коммерческую ценность.

В течение трех лет команда Криса увеличилась почти втрое, и стало ясно, что если они хотят двигаться быстрее и масштабировать свое влияние на ценность бизнеса, они требуют, чтобы команда отказалась от некоторых старых практик, которые имели смысл, когда команда составляла всего одну треть от нынешнего размера.

TheRealReal использует команду команду структуру для создания своих сервисов машинного обучения. Типичный отряд будет состоять из:

  • Менеджеры по продукту
  • Инженеры
  • Инженеры по машинному обучению для тех продуктов, которые содержат компонент машинного обучения.

Крис упомянул, что в TheRealReal инженер по машинному обучению (также известный как специалист по обработке и анализу данных полного стека) отвечает за обработку и создание микросервисов, а также за продвижение и эксплуатацию модели в производственной среде.

Крис упомянул, что мысли инженеров по машинному обучению охватывают широкое определение, они начали отводить талантам более специализированные роли.

Инженеры данных начали брать некоторые задачи от инженеров по машинному обучению и начали брать на себя ответственность за более крупный конвейер данных.

Это облегчило масштабирование команды.

Недавно мы выделили нескольких инженеров MLOps, чтобы они сосредоточились на архитектуре макросов.

И мы можем в конечном итоге выплюнуть специалистов по данным из инженеров машинного обучения.

Так что для нас это означало бы тех, кто действительно пытается специализироваться на выводной статистике, чтобы помочь людям принимать разумные решения (специалисты по данным), а не машинам, принимающим разумные решения (инженеры машинного обучения).

Конечно, Крис упомянул, что у этого подхода есть свои плюсы и минусы.

  • Преимущества. Команда несет полную ответственность за службу, что гарантирует, что команда не будет заблокирована другой командой из-за того, что она находится в очереди на передачу. Что, в свою очередь, позволяет команде двигаться быстрее и управлять собственной судьбой.
  • Минусы: никто не является экспертом во всем.

Крис отмечает, что такое смешение разных навыков в команде хорошо сработало:

«Все знакомы как с созданием модели, так и с ее развертыванием, но некоторые сильнее разбираются в аспектах моделирования, а некоторые сильнее в инженерии.

Но вся команда обладает навыками, необходимыми для выполнения услуги.

И они созидают всех одновременно».

Я обнаружил, что советы, высказанные в этом панельном обсуждении, очень актуальны для того, на каком этапе нашей карьеры многие из нас находятся.

Область созревает, как и практики, многие из нас создают команды по науке о данных внутри более крупной организации.

Мы должны дать понять бизнесу, что они не могут просто нанять специалиста по данным и позволить им попытаться во всем разобраться самостоятельно. Чтобы ваши инициативы были успешными, вам нужно нанять не одного эксперта, единорога.

Специалист по обработке и анализу данных — это всего лишь одна часть огромной головоломки, вырезанной случайным образом. Головоломка, состоящая из множества маленьких взаимосвязанных кусочков мозаики.

Как сказал Олкай Цирит из Uber:

Я думаю, что очень здорово иметь разнообразную команду, а не только людей, которые являются учеными, инженерами или инженерами машинного обучения.

Независимо от чьего-то титула, у него может быть впечатляющая идея, которая в конечном итоге может определить будущее серийной модели.

Вам нужна сплоченная команда, способная выявлять и четко формулировать проблемы, намечать решения и обеспечивать, чтобы эти решения приводили к желаемому бизнес-результату.

В то же время вам нужны технически талантливые люди, способные предоставить доступ к данным, разработать внутренние инструменты для достижения успеха, построить инфраструктуру, необходимую для извлечения, преобразования и загрузки данных, где ими можно манипулировать, и гарантировать, что модель развернута в способ, который гарантирует, что бизнес сможет извлечь из него ценность.

Создание кросс-функциональных команд — это способ добиться успеха в машинном обучении.

Примечание редактора. Heartbeat — это интернет-издание и сообщество, созданное участниками и посвященное предоставлению лучших образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимая от редакции, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по данным и командам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим нашим авторам и не продаем рекламу.

Если вы хотите внести свой вклад, перейдите к нашему призыву к участию. Вы также можете подписаться на получение наших еженедельных информационных бюллетеней (Еженедельник глубокого обучения и Информационный бюллетень Comet), присоединиться к нам в Slack и следить за Comet в Twitter и LinkedIn, чтобы получать ресурсы, события и многое другое, что поможет вам быстрее создавать лучшие модели машинного обучения.