DevOps

Новая парадигма в MLOps — создание системы, соответствующей нормативным требованиям

Все специалисты по данным, инженеры по машинному обучению, разработчики и т. д. хорошо знакомы с MLOps и его фреймворком. На онлайн-платформе есть множество статей и руководств по этой структуре, которые нужно прочитать и понять. Это модное словечко в сердце каждого эксперта по ИИ, исследователя и практика.

Но кажутся ли нижеприведенные понятия знакомыми.

1. Что такое MLOps для систем, соответствующих нормативным требованиям, со встроенным программным обеспечением машинного обучения?

2. Каковы его включения?

3. Как устроена структура?

Давайте разберем каждую часть в деталях.

MLOps — краткое описание

Для программного обеспечения AI и ML MLOps начинается с создания и экспериментирования и продолжается до развертывания и производства. Но это не останавливаться на достигнутом. Он продолжается и продолжается с несколькими циклами разработки, развертывания, производства и мониторинга вместе с конвейером CI / CD (непрерывная интеграция / непрерывная доставка). Между ними позаботятся обо всем, т. Е. Преобразовании данных, оптимизации модели, проверке модели, реестре модели, управлении версиями, центральном хранилище, управлении доступом, управлении и т. Д., И этот список выходит далеко за рамки.

MLOps включает в себя автоматизацию, мониторинг и управление на всех этапах программного обеспечения ML с момента его создания.

Это включает в себя 3 основных шага.

1. Определение и объединение данных для обучения и разработки модели.

2. Экспериментировать с разными моделями, чтобы найти самую эффективную, и

3. Развертывание и использование финальной модели в продакшене.

Он включает в себя сложный рабочий процесс.

Обзор регулирования и соответствия

MLS становится еще более сложной задачей, когда ее необходимо принять и адаптировать системами и областями, соответствующими нормативным требованиям, с участием программного обеспечения AI и ML. Вот несколько примеров таких доменов: здравоохранение, медицинские устройства, авиакосмическая промышленность, оборона, автомобилестроение и т. д. Это требует включения в цикл дополнительных действий, помимо уже существующих, и требует больших усилий, времени и затрат.

Он называется принятым и адаптированным, потому что фреймворк MLOps заимствован для таких доменов, чтобы повысить ценность, но в то же время требует некоторых серьезных модификаций уже вшитых/закрепленных практик и процессов, чтобы охватить требования соответствия нормативным требованиям и сертификации.

Эти системы, ориентированные на регулирование и сертификацию, требуют более плановых подходов, чтобы избежать опасностей для окружающей среды и людей, а также снизить риски в процессе.

Регулирующим органам часто требуется время, чтобы сертифицировать вещи, в то время как разработка программного обеспечения заключается в непрерывных поставках и практиках и требует быстрых итераций и приращений.

В частности, системы, управляемые ML и AI, требуют постоянных изменений в областях кода приложения, модели, используемой для прогнозирования, и данных, используемых для разработки модели, что создает другой набор проблем для действий по проверке и проверке, что еще больше усложняет соблюдение нормативных требований. и процесс утверждения сертификации.

Таким образом, правильный подход состоит в том, чтобы найти баланс между методами разработки, ориентированными на планирование, и методами, основанными на гибкости. Это гарантирует, что таким практикам, как управление рисками и техника безопасности, уделяется достаточно внимания наряду с другими практиками.

Регулирующие органы рассматривают требования, затрагивающие общественные интересы, т. е. их здоровье, безопасность, окружающую среду и т. д. Они не сосредотачиваются на технических решениях, а только на результатах и ​​опасностях. Следовательно, организации всегда сталкиваются с проблемой демонстрации соответствия.

Для большинства организаций разработка продукта, соответствующего нормативным требованиям, означает четкое понимание применимых нормативных требований и соответствующее определение стратегии с самого начала. Стратегия реализуется путем выбора подходящей модели машинного обучения, которая развертывается в рабочей среде в «заблокированном» состоянии. Состояние «заблокировано» рассматривается далее в статье. Эта стратегия легко обеспечивает проверку и проверку конечного продукта.

В связи с этим первоочередной задачей является выявление пробелов в существующей практике MLOps. Пробелы выявляют конкретные области, которые требуют внимания и изменений, чтобы соответствовать нормативным требованиям.

Как только эти пробелы будут выявлены, будут предприняты действия по доведению существующих каналов до надлежащего уровня зрелости в соответствии с нормативно-правовой базой.

Наиболее вероятные пробелы могут быть связаны с моделью и ее версиями, несколькими наборами данных, используемыми для обучения модели, и их версиями, а также с отслеживанием выходных данных модели для выявления смещения и других проблем.

Существенной частью структуры является включение управления рисками и техники безопасности наряду с этими существующими областями модификации.

Все это необходимо добавить в одну структуру под единым зонтиком для создания систем машинного обучения, соответствующих нормативным требованиям.

Поскольку системы машинного обучения и искусственного интеллекта могут совершенствоваться, изучая данные во время производства, возникает вопрос о подлинности автономной работы систем машинного обучения в отношении безопасности и производительности в области соответствия нормативным требованиям. В результате был предпринят подход «заблокированных» алгоритмов, при котором система обучается на этапе разработки, но возможность улучшения отключается при реальном использовании/производстве. В то время как конвейер общего назначения остается активным с возможностью предоставления повторно обученных моделей на протяжении всего жизненного цикла приложения непрерывным образом, но после того, как модель выбрана для развертывания, она «блокируется» после состояния упаковки на этапе мониторинга. ограничивается проверкой заблокированной модели до тех пор, пока не будут соблюдены нормативные требования.

Если в модели есть изменения, которые необходимо рассмотреть для дальнейшего развертывания и производства, то эти повторно обученные упакованные модели снова «блокируются» для прохождения проверки на соответствие нормативным требованиям и сертификационных утверждений. Процесс продолжается до тех пор, пока вся система не продемонстрирует соответствие эталонным стандартам и правилам сертификации.

Рабочий процесс разработки системы машинного обучения и искусственного интеллекта, соответствующей нормативным требованиям

Поток включает два вложенных цикла задач разработки.

Первый — это внутренний цикл, состоящий из ежедневных задач разработки с более короткими итерациями. Второй — внешний цикл, состоящий из формальных задач и действий, необходимых для окончательного согласования и утверждения версии программного обеспечения. Различные уровни задач назначаются разным лицам в соответствии с их ролью и компетенцией, и задачи выполняются по мере необходимости асинхронно.

Требования к дизайну пересматриваются на уровне выпуска. После того, как они приняты, архитектурное проектирование осуществляется на этапе цикла разработки. Архитектурный проект проверяется на соответствие требованиям и в дальнейшем рассматривается для подготовки проекта верхнего уровня и детального проекта/проекта нижнего уровня. После того, как детальный проект модуля проверен и принят, начинаются действия по разработке, а также модульное тестирование, интеграционное тестирование и системное тестирование для проверки системы/продукта.

Когда все требования, анализ проекта и действия по тестированию выполнены успешно с требуемым количеством итераций разработки, работа передается в цикл выпуска. В цикле выпуска версия программного обеспечения проходит заключительный уровень интеграции и регрессионного тестирования, а также окончательные этапы проверки, проверки и валидации для окончательного утверждения регулирующими органами.

Решение о выпуске подразумевает завершение мероприятий по управлению рисками и инженерных мероприятий по обеспечению безопасности, поэтому обычно в них участвуют менеджеры по управлению рисками, сотрудники по технике безопасности и сотрудники по соблюдению нормативных требований.

Мероприятия по управлению рисками и технике безопасности считаются общими действиями и включаются в процесс разработки (внутренний, а также внешний цикл). И то, и другое начинается с этапа требований и разработки проекта и продолжается до конца (соответствие нормативным требованиям и получение сертификата).

Параллельно постоянно происходит активный контроль качества работы «залоченной» модели в производстве.

Кроме того, автоматизированный конвейер непрерывного обучения работает внутри контролируемой среды и извлекает новые данные из источников. Все входные данные хорошо проверены. В случае, когда во время проверки данных обнаруживаются несоответствия данных, выполнение конвейера останавливается, а аномалия устраняется с помощью ручного вмешательства. Это помогает ограничить доступ команды разработчиков только к среде установки и обслуживания конвейера непрерывного обучения, не затрагивая заблокированную модель и ее последовательные действия для обеспечения соответствия и сертификации.

Заключение

Хотя эта структура MLOps помогает обеспечить соответствие нормативным требованиям, поскольку рекомендации для систем машинного обучения становятся все более и более строгими, процесс и структура, похоже, все еще развиваются. Следовательно, рассматриваемая здесь структура не является окончательной и останется в цикле адаптации в соответствии с требованиями. Но мониторинг и управление имеют огромное значение. Наличие надежного управления и контроля может позволить достичь цели и не сбиться с пути.

Ссылки —

1. Гранлунд Т., Стирбу В. и Микконен Т. На пути к MLOps, соответствующим нормативным требованиям: путь Oravizio от эксперимента по машинному обучению к развернутому сертифицированному медицинскому продукту. СН КОМПЬЮТ. СКИ. 2, 342 (2021). https://doi.org/10.1007/s42979-021-00726-1

2. https://www.enterprisetimes.co.uk/2020/02/06/why-governance-comes-first-in-mlops/