Авторы Дэррил Басвелл, Лиза Коэн, Фрэнк Лан, и Тим Лау

Конечная цель каждого проекта или инициативы в области науки о данных, которую мы предпринимаем, - максимизировать влияние на наш бизнес. За прошедшие годы мы извлекли уроки из подводных камней и разработали методы для успешной реализации проектов. В этой статье мы перечисляем этапы внедрения науки о данных и соображения, которые необходимо учитывать при их выполнении.

Как возникают проекты?

Иногда люди спрашивают, как возникают проекты в нашей централизованной организации по обработке и анализу данных. Отличный вопрос. Фактически, одна из наших недавних книг книжного клуба, Проект Феникс, побуждает инженерные команды задуматься о типах работы, выполняемой в компании (а затем использовать эти идеи, чтобы лучше расставить приоритеты, а также сократить неэффективности). Вот несколько примеров того, как возникают наши проекты:

Планирование

Мы начинаем с согласованного процесса планирования. В какой-то момент мы делали это ежеквартально, но перешли на полугодие, чтобы согласовать с остальной частью разработки Microsoft (которая использует шестимесячный семестровый процесс планирования). Это регулярная возможность поразмышлять о наших бизнес-целях, последних достижениях, конкурентной среде, отраслевых тенденциях и новых возможностях. На основе этих данных мы устанавливаем стратегический фокус на предстоящий период и фиксируем эти приоритеты в документе о видении. Мы также разрабатываем цели и ключевые результаты для четкого и количественного определения показателей успеха.

Приоритезация

Распространенная проблема при планировании - это расстановка приоритетов. Вот почему так важно возвращаться назад, чтобы взглянуть на общую картину во время периодов планирования, чтобы гарантировать, что мы инвестируем в возможности с наибольшим эффектом. Первый шаг во время планирования - определить большие камни, которые мы хотим решить. Они стали темами сверху вниз на этот период. Используя эти ориентиры, подразделение может согласовать вспомогательную работу (и OKR) для повышения перекрестной эффективности и создания более сильной коллективной истории пресс-релиза, которую можно рассказать в конце. Это помогает нам избежать ловушки распространения арахисового масла на множество дел (или сосредоточения внимания на срочном, но не важном), что снижает воздействие.

Источники

Группа специалистов по обработке и анализу данных и бизнес-группы выдвигают идеи и предложения по нашим планам дорожной карты:

  1. Предложения, ориентированные на бизнес. В некоторых случаях бизнес-команды, с которыми мы сотрудничаем (например, менеджеры по продуктам, инженеры, маркетинг, финансы, поля и т. д.) приходят к нам с предложением. Например, наша группа инженеров по разработке продукта спросила, как мы можем использовать методы науки о данных для масштабной обратной связи с клиентами, чтобы расставить приоритеты для их невыполненной работы. Другими словами, какую функциональную работу им следует выполнять, чтобы помочь большинству клиентов и решить самые большие проблемы? (В этом случае мы смогли применить методы обработки естественного языка и использовать тематическое моделирование, чтобы извлечь и определить первопричины из этих текстовых источников данных.)
  2. Инновации, основанные на науке о данных. У нас также есть проекты, которые инициируются самой нашей организацией, занимающейся наукой о данных. Например, в ходе мозгового штурма, как наилучшим образом достичь приоритета планирования и OKR, которые мы установили для CSAT службы поддержки клиентов, команда специалистов по анализу данных придумала идею и модель для прогнозирования CSAT для открытых кейсов, что помогает инженерам службы поддержки лучше управлять своим бэклогом. чтобы максимально удовлетворить потребности клиентов. Ключевой аспект зрелой организации, занимающейся наукой о данных, - это выдвижение новых идей и участие в качестве стратегического делового партнера. Это устанавливает двусторонние отношения с идеями, исходящими из обоих направлений. Организация, занимающаяся наукой о данных, находится в уникальном положении, потому что она имеет представление о данных по всему бизнесу. Учитывая это, руководители бизнеса хотят услышать точку зрения и рекомендации организации, занимающейся обработкой данных, в отношении перспективных стратегических решений. Наконец, в некоторых случаях сложно определить, с какой стороны пришла идея, поскольку мы также работаем одной командой с нашими деловыми партнерами и вместе проводим совместные мозговые штурмы. Например, многие из наших экспериментов и обновлений бесплатной учетной записи Azure (добавление новых служб, продление срока пробного использования) стали результатом такого сотрудничества.
  3. Системные решения, основанные на науке о данных. Анализируя наши проекты, мы также замечаем закономерности и возможности. Например, мы часто получаем вопрос: Какое влияние оказывает x? где x может означать маркетинговую кампанию, запуск новой услуги, изменение веб-сайта и т. д. В одном случае мы разработали модель множественной атрибуции, чтобы решить эту проблему раз и навсегда в масштабе. Платформы измерения, платформы для экспериментов и инвестиции в платформы данных - все это отличные примеры инфраструктуры науки о данных, которая требует предварительных вложений, но ускоряет наши знания и повышает точность наших результатов в более широком смысле. (Обычно мы уравновешиваем эти инвестиции в платформу и быстрые победы или функции, ориентированные на заинтересованные стороны, чтобы мы могли поддерживать поток стоимости, инвестируя в нашу инфраструктуру и сокращая долг.)

Какие результаты?

Результаты обработки данных, которые мы производим, обычно делятся на три категории:

  • Анализ. Исследование, в котором используются данные для описания того, как работает продукт или программа. Примеры включают исследование пути клиента, диагностику для определения изменения тенденции, исследовательский анализ данных или сводную бизнес-статистику.
  • Эксперимент: научное исследование для проверки гипотезы. Мы используем рандомизированные контролируемые испытания для оценки причинных факторов в наших продуктах и ​​программах. Причинный вывод - это еще один подход, при котором мы создаем синтетический контроль, основанный на научных подходах.
  • Модель. Машинное обучение или статистическая модель, которая обучается на данных для получения результатов, но не запрограммирована явно. Примером может служить модель прогнозирования оттока клиентов, которая использует исторические данные, чтобы предупреждать нас о клиентах, подверженных риску.

В этих категориях результатов есть также несколько дополнительных параметров, таких как производственная и непроизводственная, внутренняя и внешняя облицовка, а также периодическое обновление в реальном времени и периодическое обновление. Хотя каждый из этих типов результатов предполагает особые подходы, в этой статье мы сосредоточимся на общих для всех них темах.

Кто такие «пользователи»?

Наши результаты по науке о данных предназначены для широкого круга пользователей, как внутренних, так и внешних:

Мы называем наших внутренних пользователей «заинтересованными сторонами». Как вы можете видеть выше, многие из этих внутренних заинтересованных сторон - это бизнес-команды, с которыми мы сотрудничаем для совместного достижения общих целей.

Какие роли?

В предыдущей статье мы обрисовали роли в организации по обработке и анализу данных, включая PM, специалиста по данным, специалиста по машинному обучению и инженера по данным:

Кто управляет проектом по науке о данных, зависит от ролей, существующих в организации. Во многих случаях эту ответственность несут специалист по анализу данных и менеджер по анализу данных. Однако, если у вас есть возможность создать роль менеджера продукта в области науки о данных, этот человек может сыграть ключевую роль в этом процессе. Подобно традиционному менеджеру продукта в сфере технологий, менеджер продукта по науке о данных является экспертом в предметной области для пользователя и в предметной области. Для менеджера продукта по науке о данных под продуктом понимается любой из трех указанных выше типов результатов (анализ, эксперимент и модель). Многие концепции управления программными продуктами применимы и к управлению продуктами в области науки о данных.

Жизненный цикл проекта по науке о данных

Существует множество платформ для описания жизненного цикла проекта в области науки о данных, в том числе Процесс анализа данных в группе из нашей документации Microsoft. В этом разделе мы используем упрощенную версию, чтобы суммировать этапы. Для простоты мы обрисовали в общих чертах жизненный цикл проекта по науке о данных, который состоит из трех ключевых этапов: 1) разработка концепции, отвечающей потребностям конечного пользователя, 2) разработка подходящей модели, управляемой данными, которая может дать ценную информацию, и 3) развертывание ценное решение, которое позволяет конечным пользователям получить доступ к этой информации. Процесс является итеративным, и команде может потребоваться переходить от одного этапа к другому. Кроме того, в целях этой статьи (о управлении проектами в области науки о данных) мы сосредоточимся на вопросах управления продуктами и передовых методах на каждом этапе, чтобы обеспечить успешную реализацию.

Объем проблемы

Первый шаг (и, возможно, один из самых важных) - сформировать четкое представление о проблеме, а также о целях проекта. Хорошо выполненный этап проектирования помогает сформировать видение и направление, ограничивает количество итераций и дополнительных циклов, которые команда должна пройти на последующих этапах, и помогает гарантировать, что то, что в конечном итоге создает команда, является ценным и оказывает влияние. Чтобы сделать это согласованным и масштабируемым образом, мы используем процесс и форму «приема проекта», которые включают следующие вопросы:

Какую проблему нужно решить? Какова ваша гипотеза относительно того, как мы можем ее решить?

Эти вопросы для открытия помогают создать общий контекст и общее понимание проблемного пространства и предметной области. Иногда партнер может обращаться к нам с очень конкретным запросом на просмотр данных определенным образом. Когда это происходит, мы всегда просим команду отступить и объяснить бизнес-проблему, которую они пытаются решить. Это дает нам возможность использовать наш инструментарий для науки о данных и предложить, как лучше всего применить возможности науки о данных для решения этой проблемы. В таких случаях мы доставляем то, что хотят наши партнеры, даже если это не то, что они могли сформулировать изначально.

Кто будет конечными пользователями решения для анализа данных?

Важно, чтобы этот конечный пользователь не был теоретиком - другими словами, просто думал, что «команда X, вероятно, заинтересуется этим результатом». Вместо этого группа специалистов по анализу данных должна определить конкретного человека, команду или группу людей, которые в конечном итоге будут потреблять или использовать выходные данные, а затем совместно с ними работать на протяжении всего жизненного цикла науки о данных. Определение конечного пользователя и понимание его потребностей значительно увеличивает вероятность того, что результаты науки о данных не только ценны, но и будут приняты. При необходимости мы также проиллюстрируем рабочий процесс относительно того, как и кем будет использоваться решение, чтобы внести дополнительную ясность и избежать путаницы среди членов проектной группы.

Какие действия вы предпримете в связи с этой инициативой в области науки о данных?

Этот вопрос помогает удалить из очереди «интересные», но не требующие решения, проектные предложения. Если в результате мы не собираемся ничего делать по-другому, зачем тратить время на проект? С другой стороны, для проектов, которые действительно побуждают к действиям, и которые мы действительно берем на себя, этот вопрос также помогает подготовить всех участников к планированию и принятию необходимых действий, которые необходимо предпринять в дополнение к работе по науке о данных, чтобы окончательная реализуются результаты для клиентов и бизнеса.

Какое ожидаемое влияние на бизнес вы ожидаете увидеть (например, принятие, доход, удержание)?

Этот вопрос помогает нам расставить приоритеты в очереди, чтобы мы могли оптимизировать время в тех местах, где это окажет наибольшее влияние. Всегда будет больше вопросов и идей, чем может принять команда по анализу данных, поэтому команда имеет право применять свое суждение и выбирать для работы проекты с наибольшим воздействием.

При планировании мы учитываем воздействие наряду с риском и затратами (согласно матрице воздействия / усилий), чтобы оптимизировать наши усилия.

Этот вопрос также помогает определить показатели успеха инициативы. Когда у нас будет четкая конечная цель, над которой нужно работать, мы можем проявить творческий подход и провести мозговой штурм, как лучше всего достичь этой конечной цели.

Какой стратегический приоритет или OKR подразделения поддерживает это?

Это позволяет согласовывать нашу работу и приближать ее к набору основных приоритетов на данный период.

Хотя этот процесс приема может показаться «дополнительной работой» для запуска проекта, мы фактически обнаружили, что он приводит к наиболее эффективной реализации проекта и высочайшему качеству конечного продукта. Когда мы предполагаем ответы или не тратим время на прояснение этих моментов, мы в конечном итоге получаем результаты, которые не соответствуют нашим конечным потребностям, что заставляет нас пересматривать решения.

Эти данные входят в наш процесс планирования, в котором мы одобряем проекты, исходя из их влияния на бизнес и того, как они соотносятся с темами наших более широких бизнес-приоритетов. Каждая команда использует согласованные шаблоны и делает «резкие сокращения», чтобы обзор был эффективным. После утверждения проекта мы дополнительно конкретизируем планы в документе с бизнес-требованиями, чтобы команда проекта соответствовала целям и ожиданиям. Мы также вводим эти проекты в отслеживание рабочих элементов (в нашем случае - Azure DevOps), что создает систему записи для наших планов. Каждые полгода мы сообщаем о масштабах наших планов. Затем, в течение всего периода, мы сообщаем подробные обновления, чтобы все знали, что совершено и что когда произойдет.

Разработайте решение

Команда по анализу данных выполняет множество шагов при разработке решения, включая проектирование подхода, сбор данных, изучение и очистку данных, тестирование решений и многое другое. Это важный этап жизненного цикла проекта, на котором необходимо сосредоточить внимание на снижении рисков. Одним из ключевых инструментов в этом направлении является разработка минимально жизнеспособных продуктов (или минимально жизнеспособных прототипов). Преимущество этого подхода в том, что он может быстро принести несколько результатов. Но более крупная цель состоит в том, чтобы он также генерировал раннюю обратную связь и помог команде быстрее разработать лучший конечный продукт. (Это также соответствует правилу двух недель регулярного общения с пользователями нашего продукта.)

На этом этапе процесса общение является ключевым моментом, чтобы помочь команде проекта понять, где обстоят дела, какие препятствия возникли (чтобы другие могли помочь), а также согласовать сроки, передачу обслуживания и многое другое. Периодические встречи с руководителями заинтересованных сторон - еще одна возможность для команды оставаться в курсе приоритетов и ожиданий (опираясь на OKR).

Развертывайте, измеряйте и общайтесь

Развертывание решения включает упаковку модели науки о данных, чтобы конечный пользователь мог ее использовать. В рамках этого процесса команда тесно сотрудничает с конечным пользователем, чтобы убедиться, что решение соответствует его потребностям.

Ключевые вопросы, которые следует задать на этапе развертывания рабочего процесса обработки данных, включают:

  • Как нам интегрировать результаты в существующие процессы и инструменты?
  • Как мы можем обеспечить объяснимость и обоснование наших рекомендаций, вместо того, чтобы оставлять модель функционировать как черный ящик?
  • Какая поддержка и обучение нужны конечным пользователям?
  • Как мы отслеживаем состояние вывода, чтобы убедиться, что он работает должным образом?
  • Какие соглашения об уровне обслуживания необходимы для обеспечения непрерывности бизнеса?
  • Какие контракты на передачу данных необходимы для обеспечения такого уровня поддержки?
  • Был ли проект успешным, согласно нашим критериям успеха (как с точки зрения технических характеристик, так и с точки зрения эффективности бизнеса)?
  • Доволен ли конечный пользователь решением? Какие улучшения мы хотели бы внести?

Мониторинг решений, проверка работоспособности моделей и переподготовка

Для любого действующего сервиса нам понадобится устойчивая система мониторинга решений для проверки текущего состояния и производительности любых автоматизированных и развернутых рабочих процессов. Система может быть спроектирована так, чтобы предупреждать или даже обрабатывать выявленные проблемы, например, связанные с производительностью модели.

Обратная связь и оценка

Конечный пользователь остается клиентом после развертывания любых выходных данных для науки о данных. Мы настраиваем процессы для получения постоянной обратной связи от конечного пользователя, особенно для любых продуктов, которые используются в качестве расходных материалов в производстве. Мы используем эту обратную связь, чтобы измерить успех и влияние проекта на наши технические и бизнес-цели. Наконец, цикл продолжается по мере поступления обратной связи и появления идей для новых улучшений и возможностей для дальнейшего развития.

Обновления и изменения

Некоторые крупные инициативы могут охватывать несколько периодов планирования, что приводит к проектам, которые по сути являются обновлениями или изменениями исходного объема. В этих случаях лучше всего применить все те же подходы, описанные выше, для области и определения приоритетов обновлений, чтобы избежать смещения области.

Заключение

Есть много составляющих для создания успешного проекта по науке о данных. Мы надеемся, что описанный нами жизненный цикл науки о данных может быть полезным способом систематизировать многие аспекты и методы. На каждом этапе (разработка концепции, отвечающей потребностям конечного пользователя, разработка подходящей модели на основе данных, которая может дать ценную информацию, и развертывание ценного решения, которое позволяет конечным пользователям получить доступ к этой информации), коммуникация является ключевым инструментом для установления требований и проработать возникающие проблемы. Мы надеемся, что с помощью этих подходов вы и ваши команды по анализу данных сможете максимизировать как доставку, так и аспекты обнаружения в своей работе по науке о данных, чтобы добиться результатов, оказывающих влияние на бизнес.