Автор: Team MLOps

Введение

В мире, где количество моделей машинного обучения растет в геометрической прогрессии, важность платформы, сопровождающей весь ее жизненный цикл, становится все более необходимой, особенно в компаниях с несколькими продуктивными моделями машинного обучения.

Когда мы говорим о моделировании и развертывании, мы сталкиваемся с чем-то еще более сложным, поскольку каждая модель имеет уникальные требования к обработке, обучению, внедрению, мониторингу и обслуживанию. Управление всеми этими процессами вручную может быть чрезвычайно сложной и подверженной ошибкам задачей, что может означать отслеживание и воспроизводимость моделей, что приводит к значительным потерям для бизнеса в целом, потерям, которые могут варьироваться от плохого управления временем, траты ресурсов. к негативному влиянию на принятие решений на основе данных солидарности этих моделей.

Но в конце концов, что такое платформа машинного обучения?

Платформа машинного обучения призвана решить сложные проблемы, упомянутые выше, управляя всем жизненным циклом модели, начиная со стадии разработки, с помощью инструментов управления моделью, телеметрии и повторного использования ресурсов, приобретая широкую известность на этапе производства, где существует большая потребность. , такие как процесс защищенного развертывания и системный мониторинг моделей, данных и ключевых показателей эффективности.

МАГИ

Мы представим MAGI, платформу машинного обучения ViaHub, платформу машинного обучения, предназначенную для удовлетворения сквозных потребностей наших специалистов по данным с помощью продуктов, разработанных специально для контекста машинного обучения.

Среди этих потребностей есть уверенность в том, что их модели работают безопасным, масштабируемым и наблюдаемым образом, что позволяет им инвестировать свое время в разработку новых моделей или улучшение существующих моделей. Кроме того, надежность является важным моментом, важно знать, что ваша модель продолжает предоставлять данные.

Чтобы удовлетворить все эти потребности, у нас есть три интегрированных модуля на платформе, а именно Casper, Balthasar и Melchior. Каждый со своей продукцией. Далее мы более подробно рассмотрим состав модулей и продуктов MAGI.

Примечание. Внешний вид MAGI был вдохновлен суперкомпьютерами из аниме Neon Genesis Evangelion.

Каспер

Всякий раз, когда мы говорим о MLOps, мы имеем в виду развертывание моделей в рабочей среде, верно? 🤭

Модуль Casper призван решить проблемы, связанные с развертыванием моделей. Разработано с целью обеспечения надежности, масштабируемости, воспроизводимости и гибкости с использованием передового опыта и технологий на рынке.

Продукты Casper — это сам Deploy и связанные с ним конвейеры CI/CD.

Конвейеры CI/CD (непрерывная интеграция/непрерывное развертывание)

Развертывание вручную ушло в прошлое, верно? 🤭

Наши конвейеры CI/CD были разработаны для повышения скорости, масштабируемости и воспроизводимости при развертывании, а также для сокращения напрасной траты времени и ресурсов за счет стандартизации кода и лучших практик программного обеспечения.

В основном мы используем действия GitHub для выполнения наших функций CI/CD. Чтобы узнать подробнее, как работать с нашими пайплайнами, посетите эту публикацию (доступно на португальском языке).

Развертывать

Считаете ли вы безопасным для вашей компании сохранение кода модели на самом ноутбуке? 🫣

Процесс развертывания MAGI был разработан таким образом, чтобы быть надежным, быстрым и поддающимся аудиту, сокращая время, необходимое для запуска моделей в производство, и сводя к минимуму риск ошибок и сбоев.

«После того как мы стандартизировали наш процесс, время развертывания сократилось с 2 недель до 3 дней» (инженер машинного обучения)

Чтобы узнать больше о том, как работают наши беговые дорожки, посетите эту статью.

Мельхиор

Даже если человек отправится на Луну, нет смысла в ракете, за которой нельзя следить и проверять ее исправность. С моделями точно так же 🌕

Модуль Melchior ориентирован на повышение качества производственных моделей за счет наблюдаемости. У Melchior есть продукты, связанные с телеметрией и мониторингом таблиц, дрейфом модели и дрейфом данных.

Мониторинг дрейфа (модели, данные и ключевые показатели эффективности)

К счастью (или нет), реальность меняется, а вместе с ней меняются и данные, почему модели остаются прежними? 👀

Дрейф — это явление, которое происходит всякий раз, когда происходит изменение в распределении исторических и текущих данных.

Drift Monitoring — это продукт, предназначенный для мониторинга работоспособности моделей, данных и бизнес-показателей в производственной среде, предоставляющий необходимые статистические инструменты для поддержки этого мониторинга.

По сути, мониторинг дрейфа стремится обеспечить видимость того, когда содержимое набора данных могло измениться с течением времени, что означает изменение поведения или сбой в процессе расчета данных, или даже обеспечить видимость того, когда модель машинного обучения теряет способность прогнозировать. мощность и нуждается в переоценке.

«Мониторинг дрейфа позволяет не только отслеживать модели, но и понимать, когда существенно меняются ключевые показатели эффективности бизнеса» (диспетчер данных)

Мы сделали доступными в рамках мониторинга дрейфа несколько статистических функций, реализованных в PySpark, таких как KS (Колмогоров Смирнов), PSI (индекс стабильности населения), средство отслеживания производительности и классификатор доменов.

Телеметрия

Вы знаете, когда что-то происходит в рабочей среде, но не знаете, что произошло? 👻Для моделей это мир без телеметрии

Телеметрия стремится генерировать информацию упрощенным способом для видимости существующих потоков машинного обучения в ViaHub. Процесс телеметрии считался самым дружелюбным, простым и гибким для пользователей, а также очень практичным для пользователей Python.

«Использование телеметрии очень практично, вы можете легко контролировать свое приложение» (Data Scientist)

Чтобы получить информацию о работоспособности из приложений ML, Melchior Telemetry можно использовать общим способом, добавляя только декораторы проекта и метаданные, функции кода ML теперь сохраняются и анализируются.

Качество данных

Вы знаете эту скрытую ошибку, которую сможет зафиксировать только ваша клиентская область🫣? Таким образом, это можно отслеживать с помощью нашего процесса обеспечения качества данных.

Мониторинг таблиц направлен на отслеживание скрытых сбоев, вызванных аномалиями и отклонениями в выходных данных моделей машинного обучения, что предотвращает незамеченные ошибочные выполнения.

Например, аномальным случаем, который был бы тихим сбоем, который будет выполняться успешно, является таблица, которая всегда добавляет 1,5 миллиона новых записей в день, если эта таблица начала получать только 200 тысяч новых записей в день или, что еще хуже, получила 2,1. миллионов новых записей во время выполнения необходимо создать предупреждение для расследования причины. Табличный мониторинг выполняет эту роль.

«Мы смогли сделать наши поставки Data Engineering более надежными с помощью Data Quality, просто применив Melchior Table Monitoring» (инженер данных)

Благодаря этим функциям вы можете быстро обнаруживать и устранять проблемы, гарантируя, что ваши данные всегда будут работать с высоким качеством и точностью.

Бальтазар

Как и любому хорошему моряку, важно знать море🛳

Модуль Balthasar ищет лучшие инструменты, которые могут составить цикл разработки модели, в настоящее время имея продукт Feature Store.

Магазин функций

Вы когда-нибудь думали о библиотеке с самой лучшей информацией, но неорганизованной📚? Feature Store организует и централизует это.

Магазин функций — это решение для управления функциями, используемыми моделями машинного обучения, и обмена ими, помогающее снизить сложность и время, необходимое для разработки моделей машинного обучения, а также увеличить повторное использование функций и улучшить согласованность и качество данных, используемых моделями. .

«Мы смогли отследить все происхождение нашей функции, и теперь, когда необходимо внести изменения, мы знаем, на какую модель это может повлиять» (аналитик данных)

Последние мысли

MAGI, платформа машинного обучения Viahub, представляет собой значительный шаг вперед в совершенствовании управления жизненным циклом моделей машинного обучения в производстве, предлагая инновационные функции и комплексный подход к развертыванию моделей машинного обучения в производстве, от этапа разработки до этапа эксплуатации. . Это помогает сократить время, необходимое для запуска моделей в производство, повысить качество и надежность моделей, а также снизить риск сбоев и ошибок.

Благодаря MAGI группа обработки данных получает мощный инструмент для ускорения разработки и эксплуатации моделей машинного обучения, помогая преобразовывать данные в ценные сведения и повышать эффективность бизнеса в нескольких областях.

Рекомендации

Кройцбергер Д., Кюль Н. и Хиршль С. (2023). Операции машинного обучения (млопс): обзор, определение и архитектура. Доступ IEEE.

https://arxiv.org/ftp/arxiv/papers/2205/2205.02302.pdf

Симеонидис, Г., Неранцис, Э., Казакис, А., и Папакостас, Г. А. (2022, январь). MLOps-определения, инструменты и задачи. На 12-м ежегодном семинаре и конференции IEEE по вычислительной технике и связи (CCWC) 2022 г. (стр. 0453–0460). IEEE.
https://arxiv.org/pdf/2201.00162.pdf

Облако Google (2023 г.). MLOps: конвейеры непрерывного ввода и автоматизации без предварительной подготовки компьютеров
https://cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning?hl=pt -br#mlops_level_0_manual_process