Большинство организаций, благодаря значительному увеличению объема и разнообразия данных, уже используют науку о данных для анализа эффективности своего бизнеса и принятия операционных решений. Некоторые организации только начинают заниматься наукой о данных, в то время как другие вложили значительные средства и распределили группы специалистов по анализу данных в глобальных бизнес-подразделениях. Независимо от зрелости вашей организации остается проблема, как лучше всего структурировать и управлять командами по анализу данных, чтобы они могли масштабироваться в соответствии с растущими потребностями вашей организации.

Этот пост посвящен тому, что я узнал о процессе создания и управления командой по анализу данных как на собственном опыте в последние годы, так и на опыте других специалистов в этой области.

Команда Data Science

Важно понимать, что создать команду по анализу данных не так просто, как нанять специалистов по данным и предоставить им доступ к данным. Хотя для первоначального прототипа модели машинного обучения (ML) этого может показаться достаточно. Но чтобы модель работала в реальной среде, вам нужно обратить внимание на другие части, необходимые для подготовки вашей модели к производству. Рабочий процесс машинного обучения может включать в себя множество этапов, зависящих друг от друга, от подготовки и анализа данных до обучения, оценки, развертывания и т. Д. Команда специалистов по анализу данных включает в себя множество кросс-функциональных навыков, чтобы пройти путь от стадии прототипа до реального решения. Для всего этого команда специалистов по анализу данных состоит из специалистов по данным, архитекторов / инженеров данных, инженеров по машинному обучению и разработчиков программного обеспечения. Давайте кратко обсудим эти роли.

Роли

В группе специалистов по анализу данных существует множество наименований наименований с перекрывающимися ролями и обязанностями, но в целом их можно классифицировать следующим образом:

Data Scientist решает бизнес-задачи, используя методы машинного обучения и интеллектуального анализа данных. Специалисты по обработке данных также несут ответственность за использование статистических методов, процессов и алгоритмов для извлечения информации из данных. В задачи входит предварительная обработка данных, анализ, проведение экспериментов с ними, их визуализация и передача этих результатов.

Инженер по машинному обучению сочетает навыки разработки программного обеспечения и моделирования. Все, что входит в обучение, мониторинг и поддержку модели, - это работа инженера машинного обучения.

Архитектор / инженер данных - отвечает за внедрение, тестирование и обслуживание компонентов инфраструктуры для больших данных и больших распределенных систем.

Разработчик программного обеспечения несет ответственность за подготовку развернутой модели для обслуживания через REST API и может также включать некоторый интерфейсный интерфейс, поэтому разработчик программного обеспечения помогает во всех этих задачах.

Аннотации данных и обеспечение качества (QA) - данные - ключ к успеху любой группы специалистов по анализу данных. Наличие хорошо обученной команды по маркировке данных может иметь большое значение, особенно на этапах тестирования и проверки модели итеративного машинного обучения. Машинное обучение - это итеративный процесс. Вам необходимо проверить прогнозы модели, а также подготовить новые наборы данных и обогатить существующие наборы данных, чтобы улучшить результаты вашего алгоритма. Вы можете нанять или передать аннотацию данных на аутсорсинг, но остается проблема согласованности в маркировке данных и проверке результатов.

Ученый-исследователь. Если ваша команда работает над какой-либо основной областью искусственного интеллекта, такой как разговорный искусственный интеллект, компьютерное зрение, робототехника, обучение с подкреплением, графические модели и т. д., вам может потребоваться нанять кого-то с докторской степенью или базовым исследовательским опытом.

Менеджер по анализу данных. Отвечает за набор и создание групп по анализу данных, демонстрацию возможностей команды, взаимодействие с высшим руководством, разработку процессов, которым команда может следовать, помогает в общении в команде и поддерживает работу.

Короче говоря, стремитесь создать кросс-функциональную команду по анализу данных, которая позволит вашей организации получать информацию из данных и создавать готовые к эксплуатации модели.

Управление командами Data Science

Управление командой специалистов по анализу данных отличается от типичных групп разработчиков программного обеспечения из-за того, что требования к анализу данных имеют тенденцию быть более неоднозначными из-за исследовательского характера задачи. Очень сложно точно спланировать сроки проекта или конечные результаты.

Ниже приведены некоторые из ключевых проблем, которые вам необходимо решить, чтобы успешно управлять командой специалистов по анализу данных.

  1. Расширение команды. Сначала вам может понадобиться небольшая команда, которая в основном занимается анализом или придумывает идеи, которые вы можете передать высшему руководству. Но вскоре вы поймете, что для воплощения идеи в продукт вашей команде необходимо обладать множеством других навыков. Цель должна состоять в том, чтобы вырастить команду по анализу данных в полноценную продуктовую команду, отвечающую за разработку, внедрение и поддержку продуктов. Как продуктовая группа, команда специалистов по анализу данных может экспериментировать, создавать и увеличивать ценность непосредственно для компании.
  2. Расставьте приоритеты в работе. Я видел, что время от времени в команду наводняют запросы на какой-либо аналитический отчет или другие запросы на обработку данных. Эти специальные запросы отнимают много времени и влияют на долгосрочные проекты и другие ключевые результаты. Важно расставить приоритеты в работе и правильно определить эти нерегулярные задачи. В нашей команде мы создали журнал отложенных запросов и добавили приоритет этим задачам. Тогда команда сможет лучше справляться с этими срочными запросами, не жертвуя временем на важные задачи.
  3. Качество данных. Первый вопрос: вы получаете правильные данные? У вас может быть много доступных данных, но качество этих данных неизвестно. Чтобы создавать, проверять и поддерживать производство для высокопроизводительных моделей машинного обучения, вы должны обучать и проверять их, используя надежные и надежные данные. Вам необходимо проверить как точность, так и качество данных. Точность маркировки данных определяет, насколько она близка к истине. Качество маркировки данных - это точность всего набора данных. Убедитесь, что работа всех ваших аннотаторов выглядит одинаково, а надписи одинаково точны во всех наборах данных.
  4. Инструменты. Инструменты играют важную роль, потому что они позволяют автоматизировать. Вы должны использовать соответствующие инструменты для выполнения тяжелой работы, запуска сценариев для автоматизации запросов и обработки данных, чтобы сэкономить время, которое, в свою очередь, может быть использовано для повышения производительности команды. Команда специалистов по анализу данных мотивирована на решение сложных задач. Автоматизация повторяющихся еженедельных отчетов может помочь инженерам сосредоточиться на некоторых новых сложных проблемах. В нашей команде мы создали инструмент для маркировки наших данных и представили его команде аннотаций данных. Это действительно помогло нам проверить целостность данных и распределить работу между разными участниками, быстро изменив время для задачи маркировки.
  5. Процессы. Командные проекты по обработке и анализу данных ориентированы на исследования или начинаются с большого количества исследовательской деятельности, поэтому трудно предсказать, сколько времени потребуется на их выполнение. Кроме того, многие виды деятельности, такие как построение моделей и обработка данных, обычно выполняются одним человеком, поэтому традиционные совместные рабочие процессы не подходят. Вы должны определить подход, который лучше всего подходит для вашей команды. Как и в нашем случае, в JIRA мы запускаем смесь досок Kanban и Scrum. Для исследовательской деятельности, исследования / анализа данных, изучения моделей машинного обучения используйте режим Канбан, а в качестве производства моделей вы можете работать как Scrum-команда. Таким образом, в основном ваши специалисты по данным, ученые-исследователи и инженеры машинного обучения работают в основном в режиме Канбан, тогда как инженеры по обработке данных, инженеры-программисты работают в режиме Scrum. Оцените различные варианты и посмотрите, что лучше всего подходит для вашей команды и проектов.

Важно своевременно справиться с этими проблемами, иначе это может привести к низкой мотивации команды, низкой производительности и, возможно, к оттоку сотрудников.

Создание и управление командой специалистов по анализу данных - это непрерывная кривая обучения, поскольку отрасль все еще находит способы установить эффективные и стандартные способы и процессы.

Спасибо за прочтение!