MLOps — это мост между построением модели и экспортом модели в производство. В этой статье я расскажу о дорожной карте для изучения MLO: инструменты, книги и многое другое.

Проект машинного обучения, который не развернут в производственной среде, является мертвым проектом. В этой статье я расскажу о дисциплине MLOps и порекомендую 5 инструментов и 3 книги для MLOps.

MLOps, или операции машинного обучения, имеют решающее значение для успеха проектов по науке о данных в бизнес-среде. MLOps — это новая дисциплина, появившаяся совсем недавно. MLOps — это стандартизация управления жизненным циклом машинного обучения.

В этой статье я раскрою следующие темы:

  • Жизненный цикл MLOps
  • Люди MLOps
  • Инструменты для MLOps
  • Почему используется MLOps?
  • Книги для MLOps

Прежде чем начать, не забудьте подписаться на наш канал на YouTube, где мы создаем контент о науке о данных, машинном обучении и MLOps 👇



Давайте начнем.

Жизненный цикл MLOps

MLOps обеспечивает систематическую работу рабочих процессов машинного обучения. С помощью MLOps вы можете сделать сквозные проекты машинного обучения эффективными, гибкими, воспроизводимыми и управляемыми. Давайте кратко рассмотрим жизненный цикл машинного обучения.

Во-первых, вам нужно определить измеримую бизнес-цель. Для этого нужно собрать достаточное количество данных. Важно понимать данные для анализа данных. Визуализация данных — лучший способ понять набор данных.

Если вы хотите построить хорошую модель, вам нужно очистить данные. После построения хорошей модели вы можете развернуть свою модель. Существует множество способов развертывания модели. Модель упаковывается и развертывается в облаке или на периферийных устройствах. Оболочкой модели может быть сервер API с конечными точками REST, или контейнер Docker можно использовать для развертывания в облаке или на пограничных устройствах.

После того, как модель развернута, она нуждается в обслуживании. Может потребоваться обновить модель после ее развертывания в производственной среде. Эти шаги повторяются. Теперь давайте посмотрим на роли в MLOps.

Люди MLOps

Специалисты по обработке данных отвечают за создание моделей науки о данных, но специалисты по данным не единственные, кто работает над проектом по науке о данных. Давайте посмотрим на роли людей, работающих в жизненном цикле проекта по науке о данных.

Эксперт предметной области

Одним из компонентов проектов машинного обучения является знание предметной области. Хорошая модель не может быть построена без знания предметной области. Например, для выполнения проекта в области биоинформатики необходимы знания биологии и генетики.

Часто специалисты по данным или инженеры не являются экспертами в предметной области. Проекту нужен полевой эксперт, который поймет проблемы и ответы на местах. Жизненный цикл машинного обучения начинается с экспертов в предметной области и заканчивается их отзывами.

Специалист по данным

Специалисты по данным играют решающую роль в проектах по науке о данных. Специалисты по данным выполняют задачи по пониманию данных, очистке данных, предварительной обработке данных, построению модели и настройке гиперпараметров для получения хорошей модели.

Инженеры данных

Конвейеры данных лежат в основе проекта по науке о данных. Люди, ответственные за конвейеры данных, — инженеры данных. Это междисциплинарная отрасль инженерии, которая отбирает, собирает, хранит, обрабатывает и представляет данные в необходимых местах. Основные задачи дата-инженеров в системе; Разработка, тестирование и поддержка баз данных и систем обработки данных для больших данных.

Инженеры-программисты

Инженеры-программисты не несут ответственности за построение моделей. Однако многие компании хотят создавать приложения для развертывания моделей в производственной среде. Например, представьте, что специалисты по данным разрабатывают модель машинного обучения для веб-сайта. Инженеры-программисты необходимы для интеграции этой модели в веб-сайт.

DevOps

MLOps родился из принципов DevOps. Команды DevOps играют две основные роли в жизненном цикле модели машинного обучения. Во-первых, это люди, которые запускают и создают тесты, а также операционные системы для обеспечения безопасности, производительности и удобства использования моделей машинного обучения. Во-вторых, они отвечают за управление конвейером CI/CD.

Для проекта по науке о данных можно определить дополнительные роли. Я говорил о главных ролях здесь. Теперь давайте посмотрим на инструменты, используемые для MLOps.



Инструменты для MLOps

Вы можете использовать MLOps для создания надежных систем автоматизации, мониторинга, конвейера, мониторинга и упаковки для моделей машинного обучения. Существуют различные инструменты MLOps, облегчающие эти процессы. Давайте посмотрим на инструменты, которые помогают рабочему процессу MLOps.

1- MLflow

MLflow — это платформа с открытым исходным кодом для управления жизненным циклом машинного обучения. С помощью MLFlow вы можете автоматизировать рабочие процессы машинного обучения. MLFlow предлагает различные компоненты, такие как отслеживание проектов, упаковка проектов и распространение моделей. MLFlow работает с различными библиотеками машинного обучения, включая TensorFlow и Pytorch, для облегчения обучения, развертывания и управления приложениями машинного обучения.

2- Кубефлоу

Kubeflow — это платформа с открытым исходным кодом, работающая на Kubernetes. Kubeflow предоставляет специализированные услуги и интеграцию для различных этапов машинного обучения, включая обучение, создание конвейера и управление блокнотами Jupyter. С Kubeflow вы можете сделать рабочий процесс машинного обучения простым, переносимым и масштабируемым.

3- Контроль версий данных (DVC)

DVC — это инструмент MLOps, написанный на python для проектов Data Science и Machine Learning. DVC — это система контроля версий с открытым исходным кодом, похожая на Git, для управления наборами данных и моделями машинного обучения. Платформа была создана, чтобы сделать модели машинного обучения доступными и воспроизводимыми.

4- МетаФлоу

Metaflow — это платформа MLOps с открытым исходным кодом, изначально разработанная Netflix. Это инструмент, написанный на языках Python/R, который помогает создавать проекты Data Science и управлять ими. Metaflow объединяет библиотеки машинного обучения, глубокого обучения и больших данных на основе Python для эффективного обучения, развертывания и управления моделями машинного обучения.

5- Датаробот

DataRobot — популярная платформа единого решения, используемая на всех этапах жизненного цикла MLOps. DataRobot — это облачная платформа ИИ, которая позволяет специалистам по данным автоматизировать сквозной процесс развертывания, обслуживания и создания ИИ в масштабе. В 2021 году DataRobot приобрела Algorithmia, а Algorithm и DataRobot объединили свои усилия.

Теперь давайте подробнее рассмотрим, почему мы должны использовать MLOps.

Почему используется MLOps?

Разработка моделей машинного обучения достаточно сложна. Тратить время на ручное развертывание и управление моделью в рабочей среде невозможно.

Со временем в управлении жизненным циклом машинного обучения возникли три проблемы.

  • У проекта много зависимостей. Например, данные не фиксированы. Кроме того, бизнес-цели постоянно меняются. Модель следует обновлять в соответствии с изменяющимися данными и новыми бизнес-целями.
  • В проекте по науке о данных есть много ролей, таких как специалист по данным и ИТ-команда. Люди в этих ролях не используют одни и те же инструменты.
  • Специалисты по данным не являются инженерами-программистами, и специалисты по данным не обязательно должны быть экспертами в написании приложений.

Чтобы преодолеть эти проблемы, появилась область MLOps. Сегодня развертывание модели в производственной среде после ее создания является специализацией.

MLOps может предоставить множество преимуществ для команд, которые хотят интегрировать модели машинного обучения в свое программное обеспечение. Это поможет вам упростить процесс развертывания, улучшить фактическое обслуживание и эксплуатацию, а также улучшить масштабируемость вашей модели.

Теперь давайте посмотрим на книги, которые я бы порекомендовал для MLOps.

Книги для MLOps

MLOps позволяет специалистам по данным и инженерам по машинному обучению быстро развертывать, тестировать и отслеживать свои модели, чтобы убедиться, что их модели продолжают работать должным образом. Теперь я порекомендую 3 книги для изучения MLOps.

Во-первых, я рекомендую книгу Введение в MLOps для ознакомления с MLOps.

Эта книга шаг за шагом проведет вас через жизненный цикл MLOps, а последний раздел покажет вам, как применять MLOps к реальным проблемам.

Еще одну книгу, которую я бы порекомендовал, — Practical MLOps.

В этой книге показано, как реализовать сквозные модели машинного обучения с помощью MLOps. Книги О’Рейли обычно написаны академическим языком, но эта книга дает практический пример жизненного цикла машинного обучения с примерами.

Последняя книга, которую я бы порекомендовал, — это Шаблоны проектирования машинного обучения.

В этой книге описываются 30 различных шаблонов проектирования с практическими примерами использования TensorFlow, Keras, BigQuery ML и Cloud AI Platform. Это те шаблоны, которые инженеры по машинному обучению будут использовать, в частности, в своей повседневной работе.

Заключительные мысли

Проекты машинного обучения мертвы, если они не развернуты в производственной среде в конце дня. Принципы MLOps используются для сквозной реализации проектов. MLOps — это мост между построением модели и экспортом модели в производство.

MLOps похож на DevOps. Но в отличие от DevOps, MLOps также учитывает проверку данных, анализ моделей и проектирование атрибутов, поскольку данные постоянно меняются. Цель MLOps — создать непрерывный конвейер разработки моделей машинного обучения.

Сегодня большинство компаний используют MLOps для автоматизации конвейера, мониторинга, управления жизненным циклом и управления. Поскольку MLOps — это новая область, вы можете найти много вакансий в этой области.

Вот и все. Спасибо за чтение. Я надеюсь, вам понравится это. Вам могут быть интересны следующие статьи.





Не забудьте подписаться на нас в YouTube 🎞, GitHub 🌱, Twitter😎, Kaggle 📚, LinkedIn 👍

Увидимся в следующем посте в блоге…

Присоединяйтесь к FAUN: Сайт💻|Подкаст🎙️|Twitter🐦|Facebook👥 |Instagram📷|Группа Facebook🗣️|Группа Linkedin💬| Slack 📱|Cloud Native Новости📰|Дополнительно.

Если этот пост был полезен, пожалуйста, несколько раз нажмите кнопку аплодисментов 👏 ниже, чтобы выразить свою поддержку автору 👇