MLOps, термин, которого не существовало два года назад, является одной из самых быстрорастущих категорий программного обеспечения в 2021 году. Это произошло с изменением масштабов внедрения корпоративного ИИ: модель после развертывания стала проблемой номер один, с которой сталкиваются предприятия. За последние 18 месяцев сотни компаний активизировались, чтобы сформировать новую категорию MLOps. Новые инструменты включают в себя методы и функции из лучших практик DevOps. Вся парадигма CI/CD расширяется для создания специфичных для машинного обучения аналогов инструментов тестирования, развертывания, безопасности, мониторинга и наблюдения.

Одновременно со взрывным ростом инструментов MLOps сообщество ИИ испытывает всплеск опасений по поводу надежности и надежности систем ИИ. Тот факт, что системы ИИ непостоянны и могут привести к катастрофам при столкновении с реальными данными, хорошо известен с тех пор, как бот Tay столкнулся с Twitter в 2016 году. Проблемы с работой ИИ в реальных условиях возникают ежедневно, причем серьезные сбои фиксируется в постоянно растущей базе данных Partnership on AI Inc.

Как только приложение ИИ попадает в производство, оно напрямую влияет на качество обслуживания клиентов и рентабельность инвестиций предприятия. Независимо от того, насколько надежна модель, ее производительность будет снижаться по мере развития и изменения реального мира вокруг модели. Обычный подход заключался в мониторинге производительности модели. Однако к тому времени, когда мониторы производительности заметят ухудшение качества модели, клиентский опыт будет уже нанесен. Здесь на помощь приходит AI Observability. Решение AI Observability улавливает все возможные сигналы о состоянии модели и данных как на этапе вывода модели, так и в восходящем и нисходящем потоках. В сочетании с мониторингом наблюдаемость — это механизм для создания цикла обратной связи между конвейером машинного обучения и людьми-операторами, который укрепляет доверие и прозрачность.

Среди таких решений для мониторинга и наблюдения, ориентированных на машинное обучение, WhyLabs выделяется тем, что обеспечивает реальный успех и предоставляет полный набор функций, обеспечивающих наблюдаемость в конвейерах машинного обучения.

ПочемуLabs

Платформа WhyLabs — это комплексное решение для наблюдения и мониторинга ИИ, которое обеспечивает прозрачность на разных этапах конвейеров машинного обучения. Технология, лежащая в основе WhyLabs, была разработана в Институте искусственного интеллекта Аллена командой ветеранов Amazon, которые создали первые версии инструментов машинного обучения AWS. Платформа, которую они построили, была сформирована благодаря их опыту в проектировании, ориентированном на человека, распределенных системах и инструментах для разработчиков. Будучи пионерами в этой категории, команда считает, что доступ к этой технологии должен получить каждый практикующий врач. Для достижения своей миссии команда WhyLabs:

Whylogs: открытый стандарт регистрации данных

Сегодня компания WhyLabs наиболее известна в сообществе MLOps благодаря библиотеке с открытым исходным кодом под названием whylogs. Библиотека предназначена для выполнения фундаментального требования любой программной системы: процесса регистрации. Для систем ML стандартного ведения журналов недостаточно, поскольку стандартные журналы не фиксируют самый важный аспект системы ML — данные, лежащие в основе моделей. whylogs автоматически создает статистические сводки этих данных, называемые профилями, которые имитируют журналы, создаваемые программными приложениями, не поддерживающими машинное обучение. Библиотека сохраняет конфиденциальность, работает в полностью автономном режиме и никогда не передает необработанные данные для обработки.

Библиотека whylogs создает выходные данные с уникальным набором свойств:

  • Описательный: whylogs собирает всю важную статистическую информацию о наборе данных машинного обучения. Библиотека позволяет пользователям собирать статистику как из структурированных, так и из неструктурированных данных, предлагая статистику по умолчанию для каждого типа данных, а также гибкость для определения пользовательской статистики.
  • Легкий: библиотека работает параллельно с существующими рабочими процессами данных. Не требуется, чтобы необработанные данные пользователя куда-либо перемещались для постобработки. Вся статистика собирается с использованием алгоритмов стохастической потоковой передачи, поэтому требуется только один проход по данным, а вычислительная мощность библиотеки минимальна.
  • Объединяемый: результирующие файлы журналов можно объединять друг с другом. В распределенной системе профили можно записывать для каждого экземпляра и объединять для полного представления данных. В системах потоковой передачи профили можно собирать в мини-пакетах и ​​объединять в ежечасные/ежедневные/еженедельные снимки данных без потери статистической точности. Это стало возможным благодаря технике, называемой набросок данных.

Библиотека легко интегрируется с широким спектром данных и платформ машинного обучения. Для тех, кто хочет погрузиться глубже, в репозитории GitHub есть учебные пособия по использованию whylogs для обнаружения отклонения данных в темах Kafka, профилирования ТБ данных с помощью Spark, создания модульных тестов данных с помощью GitHub Actions, регистрации данных изображений или даже отслеживания данных. статистику жизненного цикла модели с помощью MLflow.

Платформа WhyLabs для всех

Возможности платформы WhyLabs основаны на базовой архитектуре, которая включает в себя ключевые компоненты, обеспечивающие инструментирование моделей и данных, мониторинг и интерпретируемость в конвейерах машинного обучения. Платформа построена на основе whylogs, а это означает, что для интеграции платформы WhyLabs пользователи сначала настраивают whylogs в своем конвейере машинного обучения или данных. Такая интеграция означает, что платформа никогда не захватывает необработанные данные, что очень здорово. Все его функции работают со статистическими профилями, которые являются единственными данными, покидающими систему пользователя.

С функциональной точки зрения WhyLabs предоставляет ряд возможностей для оптимизации мониторинга и наблюдения за приложениями ML через специально созданный пользовательский интерфейс:

Мониторинг состояния модели:

WhyLabs активно отслеживает распределение прогнозов моделей на предмет дрейфа концепций, а также широкий спектр показателей производительности моделей и любые связанные с ними ключевые показатели эффективности бизнеса.

Мониторинг состояния данных:

Одной из наших любимых функций платформы WhyLabs является мониторинг данных. С помощью этой функции пользователи WhyLabs заранее уведомляются о любых смещениях данных, перекосах в обучении или проблемах с качеством данных. Мониторинг входных данных модели создает систему раннего оповещения, которая уведомляет операторов модели об отклонениях в данных до того, как они повлияют на качество обслуживания клиентов. Предупреждения во входных данных модели можно сопоставить с предупреждениями в выходных данных модели, чтобы ускорить отладку.

Нулевое обслуживание:

Команда WhyLabs пытается сделать платформу одним щелчком мыши, от адаптации до работы внутри платформы. Пользователю нужна только одна строка кода для сбора всей статистики данных — никаких конфигураций схемы. Для развертывания платформы пользователю достаточно получить ключ API. Чтобы настроить мониторинг, пользователю нужно только указать базовый уровень из раскрывающегося списка. Для опытных пользователей также доступны конфигурации YAML и настраиваемые развертывания.

Сохранение конфиденциальности:

Возможно, самым интересным аспектом платформы является то, что она работает только со статистическими профилями данных. Необработанные данные, проходящие через конвейеры машинного обучения, никогда не покидают рабочий процесс. Это ключ к успеху для каждой команды ИИ, поскольку приложения ИИ часто работают с конфиденциальными данными.

Нет ограничений на объем данных:

Наконец, платформа не ограничивает количество точек данных или прогнозов модели, захваченных для мониторинга. Платформа использует whylogs для сбора всех статистических профилей, а журналы Whylogs обрабатывают 100 % данных для получения наиболее точных распределений.

Заключение

Как и предыдущие технологические тенденции, пространство машинного обучения, вероятно, приведет к созданию нового поколения решений для мониторинга и наблюдения. WhyLabs — одна из платформ для наблюдения за машинным обучением, которая добилась значительного успеха и была открыта для широкого сообщества ИИ как SaaS. Начиная с открытого стандарта регистрации данных whylogs и дополняя его богатым набором возможностей платформы корпоративного уровня, WhyLabs предоставляет необходимые механизмы для инструментирования и сбора информации о поведении моделей машинного обучения.

Эта статья была первоначально опубликована WhyLabs в информационном бюллетене TheSequence Edge.

Первоначально опубликовано на https://whylabs.ai.