Функции науки о данных

Наука о данных - это широкий термин, включающий в себя рабочие роли с множеством различных функций в организациях. В этом посте представлен способ категоризации различных должностных функций в области науки о данных и определены полезные навыки для каждой из этих специализаций.

Вот четыре ключевые функции науки о данных, которые я испытал за свою карьеру, и названия должностей часто связаны с этими ролями:

  • Для продукта (ученый-эксперт)
  • Как продукт (Ученый-прикладник)
  • Для операций (системный ученый)
  • Как операторы (инженер по машинному обучению)

Я использую два параметра для классификации должностных функций:

  • «За» или «Как»: Поддерживает ли специалист по обработке данных команду, которая что-то строит (для), или создает что-то сами (как)?
  • Продукт или операции: ли специалист по обработке данных создает что-то, ориентированное на клиента (продукт), или внутреннюю систему, которая имеет решающее значение для ведения бизнеса (операции)?

Ключевое различие для первого измерения заключается в том, создает ли группа специалистов по анализу данных информационные продукты. Если группа специалистов по анализу данных владеет частью системы, она отвечает за реализацию результатов. Если команда работает с другой группой, которая выполняет выводы, то наука о данных играет вспомогательную роль. Второе измерение определяет, видны ли результаты работы команды специалистов по анализу данных напрямую клиентам. Например, система рекомендаций Netflix ориентирована на клиентов, поскольку она влияет на заголовки и иллюстрации, показываемые пользователям, в то время как система обнаружения мошенничества может иметь решающее значение для запуска онлайн-игры, но не видна пользователям.

Я сам работал во многих из этих различных функций: в Twitch я был встроен в команду разработчиков мобильных продуктов и имел роль, ориентированную на аналитику продукта (для продукта), в Windfall Data у меня была роль в прикладной науке, на которой я сосредоточился. создание продуктов данных, ориентированных на клиентов (как продукт), и в Twitch я руководил ученым, занимающимся прогнозированием операционных показателей платформы, таких как время загрузки страницы (для операций). Я еще не работал с функцией As Operations, но наиболее распространенный пример, о котором я знаю, - это системы ставок на рекламу, которые используют такие компании, как Quantcast и Pinterest.

Анализ данных для продукта
Это самая распространенная категория ролей в области анализа данных, с которыми я сталкивался в игровой индустрии. В Daybreak Games, EA и Twitch многие специалисты по данным занимались аналитическими должностями, которые поддерживали менеджеров по продуктам или производителей игр. Многие из этих групп по обработке и анализу данных стремились создавать продукты для обработки данных, но у них не было инструментов и инфраструктуры для собственных продуктов. Я также видел, что такую ​​роль называют специалистом по анализу данных или специалистом по принятию решений.

Одна из ключевых обязанностей этой роли - предоставлять командам аналитические данные, которые затем используются для улучшения продуктов и дорожных карт компании. Сюда может входить высокоуровневый анализ стратегии или более тактический анализ эффективности конкретного продукта. Для хорошей работы в этой роли обычно требуются следующие навыки:

  • Исследовательский анализ: Это включает использование сценариев и SQL для изучения и обобщения наборов данных и ответов на такие вопросы, как: можем ли мы определить, какое поведение важно отслеживать для мониторинга состояния продукта, и можем ли мы определить, какие факторы взаимосвязаны с таким поведением?
  • Экспериментирование. Если команда разработчиков продукта вносит изменения, как вы оцениваете их влияние? Это может включать A / B-тестирование и поэтапное развертывание.
  • Влияние: если группа специалистов по анализу данных постоянно работает над специальными вопросами о данных, вместо того, чтобы иметь некоторую автономию для поиска полезной информации, эта роль может стать больше функцией бизнес-аналитики. Успешные специалисты по данным в этой роли могут заручиться поддержкой команд, чтобы их результаты можно было использовать в продуктах.

Устойчивое письменное и устное общение также важно для всех этих функций науки о данных. Это особенно полезно для службы поддержки продукта, чтобы оказывать влияние на другие команды.

Наука о данных как продукт
Это еще одна роль науки о данных, направленная на улучшение продуктов, но отличие от предыдущей функции состоит в том, что одним из ключевых результатов являются информационные продукты, обеспечивающие ориентированность на клиентов. В Twitch команда прикладных наук соответствовала этой функции и использовала машинное обучение для создания таких продуктов, как Детектор чемпионов для League of Legions.

Должности для этой функции могут включать в себя ученого-прикладника или инженера по машинному обучению. Это также роль, которая часто подчиняется руководителю инженерного отдела, а не аналитику или научному руководителю. Вот некоторые из навыков, которые пригодятся для этой роли:

  • Машинное обучение. Хотя прогнозное моделирование является необходимым условием для всех функций науки о данных, эта роль требует большего практического опыта работы с различными типами источников данных, включая текст, изображения и видео. Это также требует знания того, как масштабировать эти прогнозные модели.
  • Прототипирование. Полезно иметь возможность создавать MVP продуктов данных, прежде чем выделять значительную часть ресурсов на создание системы.
  • Разработка программного обеспечения: создание масштабируемых продуктов для обработки данных требует знания языков системного программирования, которые можно развертывать в распределенных средах. Код для информационных продуктов должен быть надежным и поддерживаемым.

Информационные продукты обычно представляют собой живые системы, и специалистам по данным, выполняющим эту функцию, необходимы знания, чтобы иметь возможность масштабировать прогнозные модели.

Анализ данных для операций
Эта функция находилась в зачаточном состоянии, пока я работал в Twitch. Основная обязанность этой должности заключалась в том, чтобы понять, как различные факторы влияют на рабочие показатели наших продуктов, такие как время загрузки страницы. Мы назвали эту роль системным ученым, потому что это требовало глубокого понимания нашей инфраструктуры и различных факторов, которые могут влиять на различные системные показатели.

Эта конкретная роль была сосредоточена на анализе первопричин ухудшения производительности системы, но более широкое внимание этой функции уделяется построению моделей, чтобы лучше понять, как различные внутренние и внешние факторы влияют на системы. Для этого требуются следующие навыки:

  • Инфраструктура системы: понимание того, как различные факторы влияют на операционные показатели, требует глубокого знания систем и инфраструктуры, используемых для создания продуктов. Например, для отслеживания загрузки страниц требуется знание CDN, кеширования и зависимостей вызовов API.
  • Прогнозирование. Чтобы выявить аномалии в показателях, необходимо установить базовые параметры и ожидаемое поведение. Прогнозирование можно использовать для моделирования факторов, влияющих на поведение системы.
  • Оповещение: эта роль также может отвечать за определение того, когда следует предупреждать другие группы об аномальном поведении системы. Важно иметь возможность устанавливать пороговые значения, когда следует предупреждать команды, без слишком большого количества ложных срабатываний.

Системная наука - это новая функция, и она требует гораздо большего знания инфраструктуры, чем другие роли в области науки о данных.

Наука о данных как операции
Это роль в области науки о данных, которая обычно является частью группы инженеров, цель которой состоит в создании продуктов данных, необходимых для ведения бизнеса, которые не связаны с клиентами. . Создание автоматизированных систем назначения ставок на рекламу - один пример этой роли, а создание систем обнаружения мошенничества - другой. Основное отличие от группы продуктов «наука о данных» состоит в том, что эти системы, как правило, гораздо более автоматизированы. Например, система подачи заявок на рекламу может использовать одну и ту же систему для обучения и производства из-за масштабов данных и требований в реальном времени, в то время как информационные продукты, ориентированные на клиентов, часто могут быть прототипированы и повторены в меньшем масштабе.

Вот некоторые из навыков, которые могут пригодиться для этой функции:

  • Распределенные системы. Эта функция требует знаний о создании распределенных систем, которые могут включать Spark или другие облачные технологии для масштабирования процессов. В Windfall мы используем облако DataFlow.
  • Онлайн-обучение. Требования этих систем к работе в реальном времени обычно означают, что процесс пакетного обучения не подходит, и вместо этого необходимо использовать онлайн-методы для обновления моделей.
  • DevOps: создание продуктов для обработки данных, выполняющих бизнес-функции, означает обслуживание этих систем, и именно эта роль науки о данных несет наибольшую ответственность DevOps.

У меня нет опыта работы с этой функцией, но я считаю ее одной из самых ценных ролей в науке о данных.

Заключение
Термины науки о данных могут выполнять множество различных функций. Важно иметь четкий устав команды, чтобы вы могли правильно нанимать сотрудников и поддерживать потребности организации. Эти функции требуют различных наборов навыков, и предпочтительная функция специалиста по данным может меняться в течение его карьеры.

Бен Вебер - ведущий специалист по данным в Windfall Data, наша миссия - определить чистую стоимость каждого домохозяйства в мире. В настоящее время мы нанимаем роли для функций Data Science for Product и Data Science as Product.