Записки из промышленности

Адаптация методологий управления проектами к науке о данных

Как эффективно управлять проектами, основанными на данных, и максимизировать ценность результатов проекта

В последние годы специалисты по обработке и анализу данных заняли видное место на различных предприятиях. Специалисты по данным пользуются большим спросом как на технические, так и на нетехнические таланты. В результате специалисты по обработке данных должны продолжать совершенствовать свои навыки, чтобы оставаться актуальными. В настоящее время многие фирмы признают ценность, которую привносят специалисты по данным. С другой стороны, у большинства компаний неправильное представление о науке о данных и о том, как ее поддерживать. Некоторые утверждают, что, поскольку специалисты по данным используют языки программирования R или Python, тот же подход, который работает для разработки программного обеспечения, будет работать и для построения моделей. Это не так, потому что модели различаются, и применение неправильной методологии может привести к серьезной проблеме.

Для управления проблемами требуется принятие решений. Этот процесс также может поддерживаться методами машинного обучения и интеллектуального анализа данных, основанными на анализе и выборе данных проекта для принятия правильных решений и решения критических проблем проекта. В сегодняшнюю эпоху специалист по данным должен быть адаптируемым и готовым решать проблемы новыми способами. Хотя навыки управления проектами и коммуникации имеют решающее значение для специалиста по данным, также важно понимать, как управление проектами и наука о данных функционируют вместе. В разработке программного обеспечения есть модель зрелости возможностей (CMM), которая используется для создания и улучшения процесса разработки программного обеспечения в организации. Эта модель включает в себя пятиуровневый путь эволюции. CMM напоминает стандарты ISO 9001, определенные Международной организацией по стандартизации.

Пять уровней зрелости программных процессов для CMM

· Начальный уровень: процессы на этом этапе неорганизованны и хаотичны. Успех зависит от индивидуальных усилий и не повторяется.

· Повторяемый уровень: здесь определяются основные методы управления проектами, и успех может быть повторен.

· Определенный уровень. На данном этапе организация определила свой стандартный процесс разработки программного обеспечения, уделив больше внимания стандартизации, документации и интеграции.

· Управляемый уровень. Организация управляет своими процессами с помощью анализа и сбора данных.

· Уровень оптимизации: на этом этапе процессы часто улучшаются путем отслеживания обратной связи от существующих процессов для удовлетворения потребностей организации.

Специальные процессы в DS Management

Когда нет стандартных методологий для управления проектами по науке о данных, команды обычно останавливаются на специальных методах, которые не организованы, не воспроизводимы и не устойчивы. Таким образом, эти команды часто имеют низкую зрелость проекта без непрерывных улучшений, частой обратной связи и определенных процессов.

Итак, работает ли Ad Hoc для науки о данных?

Что ж, специальные процессы имеют несколько преимуществ и недостатков. Во-первых, они предоставляют пользователям свободу выбора способа решения каждой возникающей проблемы. Ad hoc может быть лучше, когда у команд есть разовые проекты, которыми управляют отдельные лица и небольшие группы. Кроме того, концентрация на заданной задаче, не беспокоясь о влиянии проекта на другие области организации, позволяет вам работать над проектом с минимальными административными затратами.

Кроме того, наука о данных ежедневно расширяется и требует, чтобы команды и организации развивались, чтобы отражать текущие изменения. По этой причине неправильно слишком полагаться на специальные практики, потому что это может привести к многочисленным проблемам для групп и проектов, занимающихся наукой о данных. Принятие зрелых методологий управления проектами не решит полностью проблемы управления проектами, но уменьшит количество проблем и повысит шансы на успех. Помимо простых и небольших проектов, реализуемых небольшими командами, ad hoc не лучший вариант для проектов по науке о данных.

Тем не менее, давайте рассмотрим зрелые подходы к управлению программными проектами, которые могут быть приняты в секторе науки о данных.

Методология Crisp-DM

CRISP-DM в полной мере представляет собой межотраслевой процесс интеллектуального анализа данных. Эта методология имеет структурированный подход к организации проекта интеллектуального анализа данных. Это сильная и хорошо зарекомендовавшая себя методика. Когда специалисты по данным выявили необходимость в стандартной методологии и процедуре, подходящей для анализа и извлечения данных, они создали методологию CRISP-DM. CRISP-DM состоит из шести уникальных фаз. Этапы CRISP-DM включают понимание данных, понимание бизнеса, оценку, подготовку, моделирование и развертывание. На номинальном уровне процессы ведутся последовательно. Однако процесс всегда повторяющийся. Это означает, что модели предназначены для расширения за счет последующего знания. Процесс, задействованный в CRISP-DM, показан на изображении ниже. Рассмотрим этот процесс с точки зрения анализа данных.

CRISP-DM в бизнесе

Большинство предприятий, когда они хотят понять своих клиентов, целевые рынки и клиентов. У них всегда будет набор данных. Например, у них может быть список контактов либо тех, кто купил, заполнил форму, либо тех, кто заполнил ее онлайн. Таким образом, первым шагом CRISP-DM является понимание бизнеса и определение конкретных целей организации. Понимание бизнеса влечет за собой определение проблем, которые бизнес хочет решить. Как только цели понятны, начинается процесс определения того, что содержится в данных. В зависимости от источника информации может быть информация об интересах клиента. Все эти данные могут быть полезны для будущих кампаний. После этого данные подготавливаются и анализируются, чтобы сделать их полезными. Процесс подготовки данных объемный и может занимать 70-80% времени проекта. Часть процесса подготовки данных влечет за собой идентификацию и создание новых точек данных, которые можно вычислить на основе существующих записей. Позже информация, извлеченная на этапе подготовки данных, используется для создания различных моделей поведения. С помощью инструментов машинного обучения с использованием этих данных выполняются многочисленные тесты.

CRISP-DM в деталях

Задачи CRISP-DM выделены жирным шрифтом, а результаты выделены курсивом.

CRISP-DM и управление проектами по науке о данных

Команды специалистов по данным, которые интегрируют свободную реализацию CRISP-DM с гибкими практиками, наверняка добьются наилучших результатов. Даже команды, которые не применяют все подходы CRISP-DM в полной мере, добьются лучшего результата. CRISP-DM обеспечивает стандартную основу для:

  • Документация по опыту
  • Методические рекомендации
  • Методология CRISP-DM поддерживает лучшие практики и поддерживает тиражирование проектов.
  • CRISP-DM можно использовать в любом проекте Data Science независимо от предметной области.
  • CRISP-DM — это де-факто стандартная отраслевая модель процесса интеллектуального анализа данных. Поэтому очень важно, чтобы специалисты по данным понимали различные этапы модели.

Методология водопада

Уинстону Ройсу приписывают открытие модели водопада в 1970 году. Это одна из старейших методологий разработки программного обеспечения. Водопадная модель представляет собой последовательную модель, разделенную на заранее определенные этапы. Методология водопада получила свое название «модель водопада», потому что каждый этап устанавливает четко определенные выходные данные, которые передаются на следующий этап в качестве входных данных. Как только продукт переходит на следующую стадию, его нельзя отменить. Поэтому можно сказать, что весь этот процесс разработки программного обеспечения действует как последовательность небольших водопадов. Водопадная модель делит весь процесс разработки программного обеспечения на несколько этапов. Затем этапы выполняются последовательно друг за другом. На каждом этапе обработка продолжается до тех пор, пока не будет получен конечный продукт этого этапа, прежде чем переходить к следующему этапу.

Когда следует использовать каскадную модель?

Как правило, вы можете захотеть узнать, когда лучше всего использовать каскадную модель. Что ж, методология водопада должна быть принята, когда клиент может предоставить все свои требования сразу, плюс требования должны быть стабильными. Кроме того, команда разработчиков должна быть в состоянии интерпретировать все требования клиента в начале разработки программного обеспечения. Тем не менее, кому-то сложно сразу обозначить все требования. Поскольку более строгая каскадная модель не позволяет возвращаться после завершения этапа, был введен новый вариант водопадной модели, учитывающий обратную связь. Это известно как «обратная связь между соседними стадиями».

Эта модель позволяет исправлять проблемы между соседними этапами, принимая обратную связь от текущего этапа. Например, если ошибка возникает на этапе тестирования во время кодирования, ее можно исправить, вернувшись к этапу кодирования.

Подходит ли каскадная методология для управления проектами по науке о данных?

Согласно Прессману и Максиму (2015), методологию водопада нельзя использовать в управлении проектами по науке о данных. Во-первых, методология идеально подходит для сценария, в котором все требования сформулированы и вряд ли изменятся. Это не относится к проектам по науке о данных, учитывая, что в области науки о данных проводятся многочисленные эксперименты, модифицируются требования, а технология все еще является новой. Модель водопада была разработана для использования в производственном и строительном секторе, где поступательное движение проекта является последовательным. Это объясняет, почему рабочие фазы модели не пересекаются. Вам нужно будет закончить раму автомобиля, прежде чем вы сможете прикрутить кузов. Тем не менее, хорошо структурированное состояние водопадной модели идеально подходит для определенных этапов проекта по науке о данных, таких как планирование, управление ресурсами, объем и проверка.

Гибкая методология

Методология Agile основана на Agile-манифесте. Манифест включает в себя 4 основополагающие ценности и 12 ключевых принципов. Целью манифеста является выявление лучших подходов к созданию программного обеспечения путем создания измеримой структуры, которая способствует итеративной разработке, распознаванию изменений и командному сотрудничеству. Оптимальная ценность методологии Agile заключается в том, что она позволяет командам предоставлять быструю отдачу с более высоким качеством и предсказуемостью. Гибкие процессы предлагают дисциплинированную практику управления проектами, которая поддерживает частую адаптацию, проверку, самоорганизацию и набор инженерных методов, которые обеспечивают быстрое удовлетворение потребностей в высококачественном программном обеспечении.

Четыре ценности Agile-манифеста

1. Сотрудничество с клиентами вместо переговоров по контракту.

Согласно Agile-манифесту, важно иметь непрерывное развитие. Необходима обратная связь с клиентами, чтобы можно было быть уверенным, что продукт работает с ними.

2. Люди и взаимодействие важнее инструментов и процессов.

Присутствие правильной группы людей в команде разработчиков программного обеспечения имеет решающее значение. Кроме того, взаимодействие между этими людьми и членами команды играет большую роль в решении проблемы.

3. Реагирование на изменение вместо соблюдения плана.

Agile-манифест рекомендует, чтобы команда разработчиков программного обеспечения имела возможность реагировать на изменения всякий раз, когда это требуется.

4. Рабочее программное обеспечение важнее исчерпывающей документации.

Agile-манифест отдает приоритет рабочему программному обеспечению над документацией.

12 основных принципов Agile-методологии

  1. Удовлетворяйте потребности клиентов, используя своевременную и постоянную доставку важного программного обеспечения.
  2. Принимайте различные требования, в том числе те, которые появляются на поздних этапах разработки.
  3. Представляйте функциональное программное обеспечение регулярно от нескольких недель до нескольких месяцев.
  4. Разработчики и деловые люди должны ежедневно сотрудничать на протяжении всего проекта.
  5. Создавайте проекты вокруг вдохновленных людей. Предоставьте им поддержку и среду, в которой они нуждаются.
  6. Наиболее эффективное и действенное средство передачи информации внутри команды разработчиков.
  7. Функционирующее программное обеспечение является основным фактором, определяющим прогресс.
  8. Гибкие процессы подчеркивают устойчивое развитие. Разработчики, пользователи и спонсоры должны поддерживать постоянный темп.
  9. Постоянное внимание к технической профессии и правильный дизайн повышают маневренность.
  10. Применяйте простоту, чтобы максимизировать объем невыполненной работы.
  11. Самоорганизующиеся команды представляют лучшие требования, проекты и архитектуры.
  12. Во время перерывов команда должна подумать о том, чтобы стать эффективной, и скорректировать поведение.

Когда следует использовать методологии Agile?

Особенности методологии Agile, такие как адаптивность, непрерывная поставка, итерация и короткие временные рамки, делают ее идеальным методом управления проектами для текущих проектов и проектов, все требования которых неизвестны с самого начала. Другими словами, проекты без четких сроков, доступных ресурсов и ограничений делают их лучшим выбором для методологии Agile. Многие программные продукты в настоящее время используют Agile. Это стандарт, который был расширен для использования в маркетинге, дизайне и бизнесе.

Может ли наука о данных извлечь выгоду из методологии Agile?

Agile идеально подходит для управления проектами Data Science. Процессы науки о данных влекут за собой высокую степень неопределенности. По этой причине гибкие методологии работают рука об руку с наукой о данных, потому что они позволяют нелинейным процессам быть успешными, а не заставлять их следовать в последовательном порядке.

Преимущества Agile Data Science

· Быстрая доставка ценности для клиента. Предоставляя дополнительные функции продукта, такие как порты данных, минимальные возможности и модели, пользователи получают ценность до завершения проекта.

· Соответствующие результаты — определяя требования заранее, до начала разработки, принципы, скорее всего, удовлетворят текущие потребности.

· Лучшее общение. Agile направлен на сотрудничество, четкую коммуникацию и фокусируется на отдельных людях. Поэтому, когда группы специалистов по обработке и анализу данных масштабируются и становятся разнообразными, ценность эффективной коммуникации возрастает как внутри заинтересованных сторон, так и внутри команды.

· Agile позволяет специалистам по данным экспериментировать и узнавать, что работает, а что нет. Экспериментирование начинается с создания гипотезы и определения переменных. Далее идет сбор и анализ данных.

Хотя Agile был создан как методология разработки программного обеспечения, он продолжал развиваться, чтобы удовлетворить потребности многих типов команд. Однако по мере того, как гибкие методы продолжают развиваться и выпускаются новые гибкие приложения, гибкие фреймворки также продолжают развиваться.

Схватка

Scrum — популярная гибкая структура, идеально подходящая для команд. Согласно Руководству по Scrum, Scrum — это структура, в рамках которой люди могут решать адаптивные задачи, творчески создавая продукты с наибольшей ценностью. В некоторых случаях скрам может сбивать с толку, потому что команды будут создавать гибриды, в которых используются некоторые аспекты других фреймворков, таких как Канбан. Основная цель схватки — удовлетворить потребности клиентов посредством прозрачного общения, непрерывного прогресса и коллективной ответственности.

Scrum реализуется в виде минимальных блоков, которые являются короткими и периодическими, известными как спринты. Спринт длится от 2 до 4 недель. Каждый спринт — это объект, который обеспечивает полный результат. Процесс состоит из отправной точки и требований, которые дополняют план проекта.

Может ли наука о данных извлечь выгоду из методологии Scrum?

Scrum позволяет команде сотрудничать и обеспечивать дополнительную ценность. Однако этот процесс непрост. Самая большая проблема связана с определением спринтов фиксированной длины, которые представляют собой проблему в среде науки о данных. Например, нелегко оценить, сколько раз потребуется выполнить задачу.

Команды по науке о данных предпочитают спринты разной продолжительности, но это невозможно при использовании Scrum. Из-за этих проблем некоторые команды предпочитают применять Data-Driven Scrum (DDS). DDS включает в себя некоторые из основных концепций Scrum, но также устраняет недостатки использования Scrum. Основные преимущества схватки заключаются в том, что она ориентирована на клиента/продукт, способна сохранять согласованность, информацию, полученную путем экспериментов, и четкое направление вокруг членов команды. Scum трудно освоить, у членов команды довольно значительные накладные расходы, а выполнение требований в заданное время может быть сложной задачей для команды.

Канбан

Канбан — это подход к управлению проектами, который лучше всего подходит для компаний любого размера. Инструмент позволяет получить визуальный обзор задач, которые необходимо выполнить или выполнить. Он состоит из цифровой или физической доски с тремя колонками («В процессе», «Готово», «Сделать»). Затем задачи оформляются в виде карточек с историями. Каждая карта будет извлечена слева направо, пока она не будет завершена. Система Канбан была впервые применена на заводах Toyota, чтобы сбалансировать поставки материалов с фактическим производством.

Можно ли использовать Канбан для управления проектами по науке о данных?

Канбан показал себя отличной методологией для многих типов проектов, от крупных проектов с несколькими уровнями сложности до небольших, которые могут быть быстро выполнены одним или двумя людьми. Канбан обеспечивает гибкость, необходимую специалистам по данным, которым нужна гибкость для выполнения своих задач без постоянных сроков. Согласно Зальцу, Шамшурину и Кроустону (2017), Канбан обеспечивает структуру, которая превосходит возможности групп по обработке и анализу данных.

Рекомендации по Канбану

Использование Канбана в проекте дает возможность визуализировать рабочий процесс. Таким образом, в случае узких мест, перегруженных шагов и других препятствий их легко идентифицировать. Команда также должна собраться вместе, чтобы определить способы выполнения наиболее важных заданий наилучшим образом.

Преимущества Канбана

· Он очень нагляден, поэтому он эффективен для информирования заинтересованных сторон и членов команды о ходе работы.

· Он очень гибкий. Он может извлекать рабочие элементы по одному, в отличие от пакетного цикла Scrum.

· Предлагает лучшую координацию. Гибкая структура, простота, визуальная природа и легкие функции делают его удобным для совместной работы.

· Сокращает незавершенное производство.

· Обеспечивает четкие правила для каждого шага процесса.

Недостатки Канбана

· Отсутствие сроков. Отсутствие дедлайнов может заставить команду долго работать над конкретными задачами.

· Определение колонки Канбан. Сложно определить столбцы для канбан-доски по науке о данных.

· Взаимодействие с клиентом не определено. Таким образом, клиенты могут не чувствовать себя вовлеченными в процесс без структурированной каденции обзоров спринтов.

Исследования и разработки для управления проектами на основе данных

Исследования и разработки относятся к деятельности, которой занимаются предприятия для разработки и внедрения новых продуктов и услуг, а также для улучшения своих текущих предложений. Исследования и разработки отличаются от большей части операционной деятельности компании. Обычно исследования и разработки не ведутся с надеждой на сиюминутную прибыль. Скорее, он предназначен для повышения долгосрочной прибыльности компании. По мере разработки открытий и продуктов исследования и разработки могут привести к патентам, авторским правам и товарным знакам.

Эффективно ли использование научно-исследовательских подходов для управления проектами на основе данных?

Да!

Наука о данных состоит из нескольких этапов, от EDA до создания модели, и каждый этап требует своего набора экспериментов. Каждая фаза взаимосвязана и итеративна. Исследования и разработки — лучший метод для инициатив, основанных на данных, потому что они обеспечивают большую гибкость с точки зрения творчества и создания чего-то нового. Исследования и разработки привели нас туда, где мы сейчас находимся в области науки о данных. Организации сталкиваются с множеством проблем, связанных с данными, которые нелегко решить с помощью обычных процедур и практик.

Заключение

Когда мы подошли к концу этой статьи, важно разобраться в различных подходах к управлению проектами и в том, как их можно интегрировать в информатику. Делая это, мы сможем обнаружить и создать технику, которая эффективно работает. Существует множество инструментов управления проектами, которые используются для поддержания и отчетности о ходе проекта. Мы можем использовать эти инструменты не только для уведомления высшего руководства, но и для того, чтобы помочь заинтересованным сторонам написать предположения и зависимости проекта. Успех проекта зависит от множества факторов. Поэтому важно разработать и проанализировать основные показатели эффективности системы на всех этапах жизненного цикла проекта.

Вот дополнительные ресурсы, которые помогут вам разобраться в управлении проектами на основе данных.

Справочный список

Модель водопада

https://binaryterms.com/waterfall-process-model.html

https://www.lucidchart.com/blog/pros-and-cons-of-waterfall-methodology

https://corporatefinanceinstitute.com/resources/knowledge/other/capability-maturity-model-cmm/

Специальные

https://www.datascience-pm.com/tag/ad-hoc/

Аджайл

https://zenkit.com/en/blog/agile-methodology-an-overview/

https://projectmanagementacademy.net/agile-methodology-training

https://www.marketing91.com/agile-methodology/

https://www.digite.com/agile/scrum-methodology/

Канбан

https://www.paymoapp.com/blog/what-is-kanban/

https://bigdata-madesimple.com/why-apply-kanban-principles-big-data-projects/

https://towardsdatascience.com/the-3-most-important-project-management-methods-in-data-science-df7e14955d37

Другие источники



https://neptune.ai/

https://www.dominodatalab.com/resources/field-guide/managing-data-science-projects/

https://www.datascience-pm.com/

https://xperra.com/blog/crispy.html

https://www.datascience-pm.com/crisp-dm-2/

https://www.agilealliance.org/agile101/12-principles-behind-the-agile-manifesto/

https://www.productboard.com/glossary/agile-values/

https://www.mygreatlearning.com/blog/why-using-crisp-dm-will-make-you-a-better-data-scientist/