Как использовать MLOps для эффективной стратегии ИИ

87% проектов по машинному обучениюне удается запустить в производство. Развертывание моделей машинного обучения в бизнес-вариантах требует обхода нескольких узких мест в данных и инженерии, которые мешают процессу внедрения. На самом деле команды машинного обучения тратят четверть своего времени на разработку инфраструктуры, необходимой для развертывания машинного обучения.

В одной из наших предыдущих статей мы подробно обсуждали многочисленные причины, по которым такое большое количество инициатив ML не доходят до стадии производства. Необходимость решения этих проблем и других более мелких нюансов развертывания моделей машинного обучения привела к появлению относительно новой концепции MLOps.

Что такое Млопс

MLOps — набор лучших практик, направленных на автоматизацию жизненного цикла машинного обучения, — объединяет разработку системы машинного обучения и эксплуатацию системы машинного обучения. Объединение DevOps, машинного обучения и обработки данных, MLOps упрощает развертывание машинного обучения в различных бизнес-сценариях, превращая машинное обучение в инженерную дисциплину.

Предприятия могут использовать его для разработки окончательного процесса для достижения ощутимых результатов с помощью ML. Одной из наиболее важных причин растущей популярности MLOps является его способность ликвидировать разрыв в опыте между бизнес-командами и командами, работающими с данными. Более того, широкое распространение машинного обучения повлияло на эволюцию нормативно-правовой базы. Поскольку этот эффект продолжает расти, MLOps помогут предприятиям справиться с большей частью требований нормативных требований, не влияя на практику работы с данными.

И, наконец, совместный опыт групп обработки данных и эксплуатации позволяет MLO-операторам обходить узкие места, существующие в процессе развертывания. И по мере дальнейшего изучения мы увидим, как MLOps сужает петлю и сглаживает складки в структуре проектирования и реализации системы машинного обучения.

Структура MLOps для успеха

Поскольку MLOps — это зарождающаяся область, может быть трудно понять, что она влечет за собой, и ее требования. Одной из основных проблем при внедрении MLOps является сложность наложения методов DevOps на конвейеры машинного обучения. В первую очередь это связано с принципиальным отличием: DevOps имеет дело с кодом, тогда как ML — это код и данные. А когда дело доходит до данных, непредсказуемость всегда вызывает серьезную озабоченность.

Поскольку код и данные развиваются независимо и параллельно, возникающее в результате разъединение приводит к тому, что производственные модели машинного обучения становятся медленными и часто несогласованными. Кроме того, применение простого подхода CI/CD может оказаться невозможным из-за отсутствия воспроизводимости огромного объема данных, которые трудно отслеживать и версии. Поэтому для машинного обучения в производстве крайне важно использовать подход CI/CD/CT (непрерывное обучение).

Изучение конвейера машинного обучения (CI/CD/CT)

Команды данных должны рассматривать MLOps просто как артефакт кода, который не зависит от отдельных экземпляров данных. Вот почему разделение его на два отдельных конвейера (конвейер обучения и конвейер обслуживания) может помочь обеспечить безопасную среду запуска для пакетных файлов, а также эффективный цикл тестирования.

Конвейер обучения включает в себя весь процесс подготовки модели, который начинается со сбора и подготовки данных. После того, как данные собраны, проверены и подготовлены, специалистам по обработке и анализу данных необходимо внедрить разработку признаков, чтобы присвоить значения данных для обучения, а также для производства. В то же время необходимо выбрать алгоритм, который определит, как модель идентифицирует шаблоны данных. Как только это будет сделано, модель может начать обучение на основе исторических автономных данных. Затем обученную модель можно оценить и проверить перед развертыванием через реестр моделей в производственном конвейере.

Производственный конвейер включает использование развернутой модели для создания прогнозов на основе онлайновых или реальных наборов данных. Именно здесь подход CI/CD/CT подходит к полному циклу посредством автоматизации конвейера. Данные собираются с конечной точки и дополняются дополнительными данными из хранилища функций. Затем следует автоматизированный процесс подготовки данных, обучения модели, оценки, проверки и, в конечном итоге, создания прогнозов. Некоторые из компонентов, которые укрепляют этот процесс автоматизации, включают управление метаданными, запуск конвейера, хранилище функций и независимое управление версиями данных и моделей.

После развертывания модели в конвейере полученные данные можно использовать для непрерывного обучения моделей в конвейере обучения. Таким образом, он закрывает циклы данных/кода и упрощает процесс развертывания.

Создание правильной команды

В идеале команда MLOps должна включать в себя сотрудников из подразделений операций, ИТ и обработки данных. Эту команду должен возглавить руководитель предприятия с опытом внедрения машинного обучения.

Что касается согласования команды, команды MLOps могут быть согласованы с командой архитектуры предприятия в рамках ИТ или также могут быть интегрированы с центральной группой аналитики или науки о данных. В зависимости от требований, команды MLOps могут работать с определенными бизнес-подразделениями вместе с группами по науке о данных или ИТ для управления сложными моделями.

Руководителям команд MLOps необходимо четко определить роли для таких задач, как подготовка данных, обучение моделей машинного обучения, развертывание моделей и т. д.

Преимущества MLOps и путь вперед

Главным преимуществом использования MLOps является быстрое инновационное управление жизненным циклом машинного обучения. Решения MLOps упрощают взаимодействие групп обработки данных с ИТ-инженерами и повышают скорость разработки моделей. Кроме того, возможность мониторинга, проверки и управления системами для моделей машинного обучения ускоряет процесс развертывания.

Помимо экономии времени за счет быстрых автоматизированных рабочих процессов, MLOps поддерживает оптимизацию и повторное использование ресурсов. Используя MLOps, ИТ-команды могут создать самообучающуюся модель, способную приспосабливаться к отклонениям данных в долгосрочной перспективе.

Быстрый рост MLOps указывает на будущее, в котором мы увидим его превращение в конкурентную необходимость. По мере того, как машинное обучение переходит от исследований к применению, ему необходимо будет соответствовать гибкости современных бизнес-моделей и адаптироваться к меняющимся обстоятельствам. Хотя это все еще далеко в будущем, предприятия должны действовать сейчас, чтобы воспользоваться возможностью, когда она появится.

Кроме того, прочитайте наш блог о 5 лучших методах внедрения моделей машинного обучения в производство.

Об авторе

Анвар — менеджер по трансформации бизнеса в Sigmoid. В течение почти десяти лет он руководил разработкой и внедрением масштабируемых ИИ-решений для клиентов в различных отраслевых областях, помогая им продвигаться вперед в области аналитики.