Примечание редактора: Иньси выступает спикером на ODSC East 2022. Обязательно ознакомьтесь с ее выступлением вместе с Шоном Оуэном MLOps: облегчение технического долга в ML с помощью MLflow, Delta и Databricks, чтобы узнать больше о MLOps!

За последнее десятилетие машинное обучение (МО) получило широкое распространение во всех отраслях. Ядром любого решения ML является набор конвейеров преобразования данных и операций, которые выполняются для создания модели, которая сопоставляет входные данные с прогнозом. Специалисты по данным могут внедрить и обучить модель машинного обучения в автономном наборе данных с помощью Jupyter Notebook или IDE на локальном компьютере.

Однако внедрение модели в реальный мир и создание на ее основе ценности для бизнеса включает в себя нечто большее, чем просто ее создание. Как развертывать, обслуживать и делать выводы в масштабе? Требования к пропускной способности и задержке определяют выбор подхода к развертыванию; Пакетное развертывание подходит, когда ожидается, что выводы будут выполняться ежечасно или ежедневно с большими пакетами входных данных, а развертывание в реальном времени отвечает на запросы пользователей в момент их получения. Для моделей с интенсивными вычислениями обслуживающая платформа должна балансировать нагрузку для поддержки параллельных запросов.

Другие соображения включают в себя способы проверки качества данных и непрерывного мониторинга производительности модели. В документе Google Кредитная карта технического долга с высокими процентами подчеркивается, что для создания интегрированной системы машинного обучения и эксплуатации ее в производственной среде требуется обширная и сложная окружающая инфраструктура (см. рисунок ниже).

Модели машинного обучения в производстве взаимодействуют со всей программной системой и кодовой базой. Модули приема и обработки данных передают данные в обученные модели машинного обучения, а прогнозы моделей, в свою очередь, возвращаются в последующие конвейеры и блоки сбора данных. Полный конвейер разработки включает три ключевых компонента:

  • Данные
  • ML модель
  • Код

Надежная система должна иметь возможность непрерывно отслеживать и доставлять изменения, когда любой из компонентов сталкивается с изменениями, как показано на рисунке ниже. В производственной среде система продолжает получать новые данные. Таким образом, проверка данных и мониторинг рабочих мест имеют решающее значение. Когда новые данные отклоняются от распределения исторических данных, на которых была обучена модель, или производительность модели ухудшилась из-за того, что модель была развернута в течение определенного периода, модель необходимо переобучить.

Таким образом, проектирование системы машинного обучения начинается с требований данной бизнес-задачи. Специалисты по данным разрабатывают модели, которые решают проблему и соответствуют критериям успеха. После того, как модель полностью обучена и оценена, ее можно развернуть. Но обслуживание и производство системы на этом не останавливаются; он итеративный и непрерывный. Данные и модель должны проверяться и контролироваться на каждой итерации. Это сквозной жизненный цикл ML, и нам нужны процессы, которые помогают автоматизировать управление жизненным циклом ML или MLops.

По сути, MLops необходимо обернуть вокруг данных, моделей машинного обучения и кода. Другими словами, MLops = DataOps + ModelOps + DevOps. Теперь, когда мы знаем, что такое MLops и зачем он вам нужен, мы представим инструменты, которые помогут управлять данными (Delta Lake и Feature Store) и моделями (MLflow), а также предоставим рекомендации по передовому опыту в нашем выступлении на ODSC. Так что следите за обновлениями!

Исходное сообщение здесь.

Читайте другие статьи по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от начального до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг. Вы также можете пройти обучение по науке о данных по запросу, где бы вы ни находились, с помощью нашей платформы Ai+ Training.