Данные стали новым исходным кодом, и нам нужен способ управлять ими.

Данные стали новым исходным кодом, и нам нужен способ управлять ими.

Данные настолько важны, что многие ведущие специалисты в области искусственного интеллекта настаивают на том, чтобы данные были в центре рабочего процесса машинного обучения. В течение многих лет код был в центре разработки программного обеспечения. И мы разработали потрясающие инструменты и процессы для создания отличного программного обеспечения, которое становится более гибким и эффективным. Но сегодня, с ростом количества программного обеспечения для машинного обучения, наиболее важным элементом является подбор правильных данных для приложений машинного обучения. Без инструментов и процессов для разработки наборов данных мы не сможем создавать модели с реальным воздействием.

Управление этими этапами совсем не тривиально. Выбор источников данных, создание ярлыков, переподготовка моделей - все это ключевые компоненты жизненного цикла курирования данных, и мы обычно выполняем их нерегулярно. Итак, что мы можем сделать, чтобы наши усилия не вышли из-под контроля?

Нам нужен подход, ориентированный на данные. Нам нужны инструменты для поддержки разработки данных.

В этом блоге мы объединяем два ключевых инструмента для улучшения операций с данными: Superb AI Suite и Pachyderm Hub. Вместе эти два инструмента привносят маркировку данных и управление версиями данных в рабочий процесс операций с данными.

Superb AI Suite: размеченные данные в масштабе

Superb AI предоставил командам машинного обучения революционный способ значительно сократить время, необходимое для предоставления высококачественных наборов данных для обучения. Вместо того, чтобы полагаться на людей, занимающихся маркировкой, в большинстве рабочих процессов по подготовке данных, теперь группы могут реализовать гораздо более эффективный по времени и рентабельности конвейер с помощью Superb AI Suite.

Подход Superb к маркировке, основанный на ML, должен выглядеть как на диаграмме выше:

  • Сначала вы загружаете все необработанные собранные данные на платформу Suite и маркируете только несколько изображений.
  • Затем вы обучаете функции CAL (настраиваемая автоматическая маркировка) в Suite менее чем за час без каких-либо специальных инженерных работ.
  • Как только это будет сделано, вы можете применить обученную модель к остальной части вашего набора данных, чтобы мгновенно пометить их.
  • Модель CAL Superb AI также сообщит вам, какие изображения необходимо проверять вручную, наряду с прогнозами модели с использованием запатентованных методов оценки неопределенности.
  • После того, как вы закончите аудит и проверку небольшого количества жестких меток, вы готовы предоставить данные для обучения.
  • Затем группы машинного обучения обучают модель и возвращаются к вам с запросом дополнительных данных.

Если ваша модель неэффективна, вам понадобится новый набор данных, чтобы дополнить существующий набор достоверных данных. Затем вы запускаете их в свою предварительно обученную модель и загружаете прогнозы модели на нашу платформу. Затем Suite поможет вам найти и переименовать случаи сбоя. Наконец, вы можете обучить Suite Auto-Label на этих крайних случаях, чтобы повысить производительность.

Этот цикл повторяется снова и снова. С каждой итерацией ваша модель будет охватывать все больше и больше крайних случаев.

Ключевые возможности:

  • Быстро создайте небольшой объем исходных достоверных данных, чтобы запустить процесс маркировки
  • Быстрый запуск любого проекта маркировки с помощью настраиваемой технологии автоматической маркировки, которая может адаптироваться к вашим конкретным наборам данных.
  • Оптимизируйте рабочий процесс аудита и валидации с помощью запатентованного ИИ для оценки неопределенности, который быстро находит сложные примеры для проверки

Вы можете попробовать это бесплатно с Superb AI Suite.

Толстокожий: версионные данные + автоматизация

Pachyderm - это основа данных для машинного обучения. Это GitHub для ваших приложений, управляемых данными.

Под капотом Pachyderm формирует эту основу, сочетая два ключевых компонента:

  1. Управление версиями данных и
  2. Конвейеры, управляемые данными.

Как и в случае с git, с помощью управления версиями данных Pachyderm вы можете систематизировать и выполнять итерацию данных с помощью репозиториев и коммитов. Но вместо того, чтобы ограничиваться текстовыми файлами и структурированными данными, Pachyderm позволяет вам редактировать любые типы данных - изображения, аудио, видео, текст - что угодно. Система управления версиями оптимизирована для масштабирования до больших наборов данных любого типа, что делает ее идеальным сочетанием для Superb AI, обеспечивая согласованную воспроизводимость.

Конвейеры Pachyderm позволяют вам подключать ваш код к вашим репозиториям данных. Их можно использовать для автоматизации многих компонентов жизненного цикла машинного обучения (таких как подготовка данных, тестирование, обучение модели) путем повторного запуска конвейеров при фиксации новых данных. Вместе конвейеры Pachyderm и управление версиями обеспечивают сквозное происхождение ваших рабочих процессов машинного обучения.

Ключевые возможности:

  • Автоматизируйте и унифицируйте цепочку инструментов MLOps
  • Интеграция с лучшими в своем классе инструментами для разработки, ориентированной на данные
  • Быстрая итерация при соблюдении требований аудита и управления данными

Вы можете попробовать это бесплатно с Pachyderm Hub.

Толстокожий как версионированное хранилище превосходного искусственного интеллекта

В этой интеграции мы предоставляем автоматизированный конвейер для получения данных о версиях, помеченных как Superb AI. Это означает, что мы получаем все преимущества Superb AI Suite для приема наших данных, маркировки их и управления нашими гибкими рабочими процессами маркировки и все преимущества Pachyderm для версии и автоматизации остальной части жизненного цикла машинного обучения.

Сам конвейер автоматически извлекает данные из Superb AI Suite в кластер Pachyderm Hub, используя их как фиксацию. Это просто работает путем безопасного создания секрета толстокожих для нашего ключа API доступа Superb AI. Затем этот ключ можно использовать для создания конвейера, который загружает наши данные Superb AI в репозиторий данных Pachyderm.

Мы автоматизируем это с помощью конвейера cron, который автоматически извлекает новые данные по расписанию (в нашем примере каждые 2 минуты). Выходной набор данных будет зафиксирован в нашем sample_project репозитории данных.

Когда у нас есть данные в Pachyderm, мы можем построить остальные конвейеры MLOps для тестирования, предварительной обработки и обучения наших моделей.

Заключение

Разработка, ориентированная на данные, является ключом к созданию моделей машинного обучения, работающих в реальном мире. Вместе Superb AI и Pachyderm объединяют этап подготовки данных, обеспечивая надежность и гибкость, гарантируя, что мы можем продолжать снабжать наши модели надежными данными и сокращать ошибки данных.

Ознакомьтесь с полным кодом этой интеграции на GitHub.

И Superb AI, и Pachyderm являются частью AI Infrastructure Alliance и посвящены созданию основы для приложений искусственного интеллекта сегодня и завтра.