Запускаете MLOps? Навигация по лабиринту данных

Проблемы, извлеченные уроки и некоторые руководящие принципы

В последнее время MLOps, ориентированные на данные, заняли центральное место, особенно когда эта тема была поднята в центр внимания пионером отрасли, таким как Эндрю Нг. Это было проблемой в течение долгого времени, так почему же это вдруг такая горячая тема?

Несмотря на то, что все впечатляющие разработки, связанные с внедрением принципов и платформ DevOps для управления жизненным циклом модели, действительно значительно ускоряют воспроизводимость «модели» и сам процесс развертывания, самый большой источник изменчивости, т. е. процесс генерации данных, который питает все эти Системы машинного обучения по-прежнему требуют большого объема ручного труда, и их сложно внедрить на предприятиях.

Почему MLOps, ориентированные на данные, занимают центральное место?

Большинство предприятий, особенно в сфере производства, не основаны на ДНК, управляемой данными, т. е. традиционно не делались крупномасштабные инвестиции в инфраструктуру данных и организации данных. Если основной бизнес предприятия — т. е. то, что они «продают», — не основан на данных и не поддерживается ими, то все последующие процессы генерации данных, формирующие основу для возможного внедрения ML/AI, будут сильно различаться. Это связано с тем, что культура данных имеет тенденцию быть изменчивой и микроклиматической.

Часто MLOps рассматриваются изолированно, однако стоит отметить, что команды инженеров данных для традиционной аналитики и DevOps существовали задолго до того, как команда MLOps дала о себе знать.

Возможность обнаружения данных остается ключевой проблемой

Команды инженеров данных часто представляют собой параллельные организации. Это означает, что видимость данных за рамками определенных приложений все еще находится в зачаточном состоянии. Это значительно влияет на MLOps с точки зрения данных, поскольку требует серьезной работы, доработок и реинжиниринга — в основном из-за отсутствия хорошего механизма публикации для существующих конвейеров данных и активов.

Поздно на вечеринку, а! MLOps и, возможно, DevSecOps, вероятно, являются самыми последними поступлениями в экосистему данных. Утопия слабосвязанной архитектуры все еще далека от реальности на большинстве предприятий, что требует, чтобы команды MLOps в значительной степени полагались на существующие команды инженеров данных. Политики управления данными и контроля доступа в зависимости от того, насколько хорошо они были разработаны, могут стать мечтой (или кошмаром!) для навигации.

Быстрые победы на ранних стадиях MLOps для предприятия означают объединение всех вместе. Data Engineering/Ops, DevOps, DevSecOps и т. д. Почему?

MLOps требует уникального сочетания навыков на стыке машинного обучения, разработки программного обеспечения, DevOps, проектирования данных и конвейеров, инфраструктуры и CloudOps. Создание таких команд является дорогостоящим и трудоемким процессом. Немногие предприятия могли принять и оправдать такие затраты по номинальной стоимости, не продемонстрировав сначала ценность! Это само по себе требует огромных усилий со стороны лидера MLOps с точки зрения образования, евангелизации и убеждения, чтобы обеспечить согласованность вне технических проблем, которые естественным образом возникают на этой территории.

Большой камень в бэклоге технического долга — отсутствие повторяемости при генерации и сборе данных. Чтобы MLOps действительно сократила время окупаемости, особенно с учетом распространения науки о данных и модельных экспериментов с течением времени, потребуется тяжелая работа с точки зрения внедрения повторяющихся механизмов генерации данных и управления версиями. Рассмотрим область роботизированной автоматизации процессов, которая находится в неконтролируемой области, которая в значительной степени зависит от человеческой интерпретации для создания меток и достоверности (т.е. для получения данных в форме, которую можно легко использовать для контролируемого обучения). Обычно в таких случаях пользовательские форматы данных генерируются инженерными группами, поскольку процесс масштабируется, что приводит к многочисленным версиям. В результате становится невозможным многократное подключение метаданных приложения к созданным вручную меткам. Поскольку смена версии данных является одним из основных триггеров MLOps, из-за этого цикл автоматизации прерывается. Модельно-ориентированная CI/CD для внезапно кажется легкой.

Распространение конвейера — это один из самых сложных аспектов производства машинного обучения и развертывания обновлений для развернутых приложений машинного обучения. Факторами, способствующими этому, обычно являются

Несколько специалистов по данным одновременно воздействуют на различные этапы потока создания ценности по отдельности. Количество комбинаций конвейеров, необходимых во время экспериментов, может увеличиваться комбинаторно, как показано в примере ниже (каждый цвет представляет рабочий процесс другого специалиста по данным). Как правило, с точки зрения модели CI принудительное применение схемы/интерфейса данных и самообнаружение не были настроены в механизмах сборки, а механизмов совместной работы и публикации с самоуведомлением для изменений интерфейса и схемы не существует.
Организационная структура — как правило, право собственности на конвейер данных лежит на группе разработки и эксплуатации данных, поэтому способность проектировать, гибко создавать и тестировать варианты конвейера в большей или меньшей степени возлагается на группы разработки данных. В результате возникают большие накладные расходы с точки зрения обмена информацией между этими двумя командами, чтобы заставить эту работу работать. Это одна из областей, где широкое взаимодействие между группами Data Science и Data Engineering имеет важное значение для производительности и воспроизводимости. Другой альтернативой является очень гибкая структура передачи данных с механизмом самостоятельной публикации, создание и установка которого нетривиальна.
Это также обусловливает потребность в гибкой архитектуре, в которой границы ролей между группами Data Engg-Ops/MLOps должны быть значительно размыты.

Небольшая часть головоломки. В отличие от компаний, которые родились из парадигмы, ориентированной на данные, машинное обучение или искусственный интеллект — это лишь малая часть того, что обычно «поставляется» или принимается на поставку для большинства крупных предприятий.

Успешные MLOps на предприятиях с физическими активами диктуют обширную интеграцию с существующими аппаратными процессами и операциями управления жизненным циклом продукта.

Если портфель продуктов состоит из чистого программного обеспечения, эта интеграция не так сложна. Однако на предприятиях, где возможности машинного обучения должны сочетаться с производимыми «физическими» продуктами, включение MLOps требует, по крайней мере, минимального уровня гибкости на нескольких уровнях, таких как:

Интегрированное управление выпуском аппаратного, программного обеспечения, микропрограммы и продуктов машинного обучения и гибкая трансформация. Это означает включение DataOps, DevOps и MLOps в методологии, которые исторически были ориентированы на аппаратные активы и имели тенденцию быть похожими на водопад.
Увеличение затрат на проверку и валидацию по мере того, как происходит больше итераций, что может быть значительным.

Такие усилия требуют предварительных инвестиций и их трудно оправдать в типичных сценариях промышленного производства. Напрашивается вопрос о преобразовании бизнес-модели в модель «как услуга», где окупаемость инвестиций доказуема, только тогда такие инвестиции могут быть оправданы.

Так есть ли какой-то план, чтобы сделать путешествие MLOps легким? Это не так просто, каждая команда столкнется со своим набором уникальных задач! Убедившись в этом на собственном опыте для промышленного производства и цепочек поставок по вертикали в розничной торговле, потребительских товарах, транспорте, энергетике, полупроводниках и авиации, некоторые ключевые принципы, которые служат внутренним компасом, таковы:

Открытость, сотрудничество и возможность самостоятельной публикации

Модульная и слабосвязанная архитектура конвейера, гибкость при построении и тестировании конвейеров для разных ролей

Совместимость — в облаке, гибриде и вне его

Возможность монетизации — можно ли измерить рентабельность инвестиций, иначе какой в этом смысл?

Наконец, евангелизация является ключевой частью путешествия MLOps, так как это требует обучения, согласованности и объединения различных навыков и команд для достижения общей цели!

Эти узкие места в потоке создания ценности машинного обучения открывают новые операционные модели как для бизнеса, так и для групп специалистов по обработке и анализу данных. Некоторые тенденции, которые мы можем ожидать, включают в себя большее внимание к созданию групп специалистов по обработке и анализу данных полного цикла с одновременным ускорением работы гражданских платформ с минимальным кодом и без кода для машинного обучения, обслуживания и визуализации DS. Я планирую обсудить эти тенденции и то, как и где мы можем ожидать изменения ландшафта, в продолжении этой публикации. Я хотел бы услышать ваши мысли, точки зрения, знания и стратегии, которые помогли командам машинного обучения преодолеть аналогичные проблемы.

использованная литература

Наука о данных полного цикла (FCDS)
Ключ к масштабированию организаций, управляемых даннымиtowardsdatascience.com

Как Apple организована для инноваций
Идея вкратце Задача Крупные компании, конкурирующие во многих отраслях, изо всех сил пытаются идти в ногу с быстро меняющимися…hbr.org

Запускаете MLOps? Навигация по лабиринту данных —

Почему MLOps, ориентированные на данные, занимают центральное место?

Возможность обнаружения данных остается ключевой проблемой

использованная литература

Вопросы по теме