Что в имени?

Необходимость эффективно определять, когда все может вернуться к нормальной жизни, становится все более сложной задачей, поскольку мир становится менее предсказуемым. Для любой системы существует гораздо больше мыслимых неупорядоченных состояний, чем полезно упорядоченных. Требуется внешняя энергия, чтобы привести технические элементы — или бизнес-системы — в «упорядоченное» состояние. MLOps можно назвать внешней энергией в контексте ИИ.

Операции машинного обучения, или MLOps, — это набор лучших практик, которые компании используют для успешного внедрения ИИ. Наборы данных огромны, постоянно растут и могут изменяться в реальном времени. Поэтому за моделями машинного обучения необходимо тщательно следить, поскольку они проходят циклы экспериментов, тонкой настройки и переобучения.

MLOps, в основном состоит из непрерывного цикла -

  • сбор и проверка данных
  • эксперименты по улучшению производительности модели
  • модель обслуживания
  • мониторинг производительности серийной модели

Почему это важно?

Чтобы воспользоваться преимуществами развернутых моделей машинного обучения, мы должны убедиться, что базовая инфраструктура масштабируема, надежна и эффективна. Зрелость экосистемы машинного обучения команды определяет, будет ли построена или куплена вся платформа MLOps. Мы также можем начать с разработки автономных MLOps, поддерживающих такие сервисы, как проверка данных, мониторинг производительности, обратное тестирование, дрейфовые сервисы и так далее. Эти услуги можно использовать по мере необходимости, и они помогут укрепить доверие к моделям.

  1. Стимулирует совместную работу в команде.MLOps помогает развертывать рабочие процессы машинного обучения, сводя к минимуму разногласия между специалистами по обработке данных и операционными командами. Это устраняет узкие места за счет повышения прозрачности среди членов команды. Он также устанавливает линию связи и позволяет владельцам моделей быстро получать информацию.
  2. Эффективное обслуживание моделей.Сейчас крайне сложно получить достоверные метки в режиме реального времени. Если задержка значительна, выявление проблем, которые могут повредить опыту наших пользователей или заинтересованных сторон, займет много времени. На уровне компонентов обслуживания машинного обучения мы по-прежнему можем отслеживать системные показатели, такие как пропускная способность, задержка, время работы и журналы. Хорошо спроектированная платформа MLOps обеспечит быструю интеграцию с обслуживающими компонентами машинного обучения для устранения неполадок в развернутых моделях.
  3. Обеспечивает непрерывную обратную связь.Мы должны получать данные от механизмов прямой и косвенной обратной связи, чтобы регулярно улучшать модели. С помощью эффективной системы ведения журнала, которая собирает данные с рабочих серверов в сочетании со службами мониторинга MLOps, мы можем отслеживать общее состояние модели и обобщать отзывы пользователей и заинтересованных сторон на основе их действий.
  4. Воспроизводимые рабочие процессы.MLOps помогает уменьшить вариативность итераций модели за счет использования реестров данных и моделей. Цель состоит в том, чтобы повысить стабильность систем машинного обучения, сохранив при этом скорость и версии экспериментов.

Вызовы MLOps

  1. Настройка инфраструктуры.Многие поставщики облачных услуг предлагают поддержку MLOps для создания, управления и управления рабочими процессами машинного обучения. Из-за финансовых ограничений и бизнес-целей крайне важно провести анализ рентабельности требований к инфраструктуре. Инфраструктура машинного обучения должна оптимально использовать ресурсы, оставаясь при этом доступной для сервисов MLOps.
  2. Несоответствие между средой разработки и рабочей средой.Устранение ошибок всегда требует больших затрат, если они попадают в рабочую среду. В результате различия между двумя средами должны быть сведены к минимуму. В противном случае в рабочей среде могут возникнуть неожиданные ошибки.
  3. Создание осмысленных оповещений — сложная задача. Трудно определить идеальный набор пороговых значений для срабатывания оповещений, поскольку показатели производительности и дрейфа между историческими и самыми последними значениями функций указывают на слишком много ложные срабатывания. Также трудно провести различие между неестественным и естественным дрейфом данных.
  4. Эксплуатация оценки моделей – это активное усилие.Оценка моделей направлена ​​на то, чтобы не допустить попадания некачественных моделей в производство. Однако нам требуются надежные услуги по мониторингу модели и обратному тестированию, чтобы постоянно отслеживать модель с течением времени. Чтобы понять эффективность и влияние модели, показатели оценки также должны быть связаны с показателями продукта/бизнеса.

Из-за таких проблем и накладных расходов на поддержку платформы или сервисов MLOps внедрение MLOps становится затруднительным. Всегда будут новые бизнес-требования, или технологии будут развиваться до такой степени, что нам потребуется обновить и переписать всю структуру MLOps, и нам придется спросить себя: "Действительно ли это того стоит?"

Надежда

Даже если сервисы, на которых мы строим, поддерживаются, с использованием этих сервисов все равно нужно поддерживать. Рано или поздно развернутая в производстве модель сломается. В конце концов, так же будет и с сервисом MLOps, и со всем остальным.

Энтропия, неуклонный переход к беспорядку — фундаментальная часть Вселенной, скрытая сила, которая с течением времени усложняет вещи. Но это не значит, что мы ничего не должны строить. Тот факт, что что-то в конечном итоге сломается, не означает, что это не может повлиять на будущее.

«Увеличение беспорядка или энтропии — это то, что отличает прошлое от будущего, задавая направление времени».

- Стивен Хокинг, Краткая история времени

А пока: Мы должны стремиться к тому, чтобы платформа MLOps, которую мы разрабатываем, подталкивала нас в правильном направлении и значительно упрощала управление жизненным циклом машинного обучения!