Что такое MLOps и почему специалисты по данным должны волноваться? Короче говоря, MLOps поможет специалистам по обработке данных быть более продуктивными и позволит превратить большую часть их работы в ценные информационные продукты. В этой статье я собираюсь изучить, как MLOps изменит доступ к данным, разработку модели и окончательное развертывание и почему программное обеспечение MLOps отрасли следует сосредоточиться на создании простых в использовании продуктов, которые вписываются в существующие рабочие процессы специалистов по данным.

История вопроса: проекты машинного обучения сегодня

Как и многие новые технологии, машинное обучение пережило период огромного роста, поскольку его стало проще использовать, а все больше людей и организаций осознали ценность, которую оно приносит. Следствием такого быстрого расширения является то, что многие проекты, построенные на основе данных и машинного обучения, создавались бессистемно. Пока это работает, потому что преимущества, полученные от использования машинного обучения, более чем компенсируют трудности, связанные с успешным внедрением этой технологии.

Однако, если машинное обучение получит более широкое распространение, нам нужно будет найти способы сделать его более эффективным и надежным. Думайте о машинном обучении сегодня как о машинах столетней давности: оно может быть дорогим, требует много усилий, чтобы заставить его работать, и может иметь проблемы с надежностью.

У людей часто возникают две жалобы: (1) для машинного обучения нам нужны высококвалифицированные специалисты по данным, которых не хватает; и (2) после того, как наши специалисты по обработке данных построят систему машинного обучения, превращение ее в удобный и надежный программный продукт будет медленным и дорогостоящим.

Специалисты по обработке данных часто находятся в центре любых усилий по внедрению машинного обучения, поэтому решение этих проблем требует от них применения различных инструментов и подходов к разработке машинного обучения.

Часть 1. Доступ к данным

Слишком часто это наиболее трудоемкая часть работы специалиста по данным и включает в себя доступ к данным из множества источников в различных форматах, а затем выполнение проектирования функций для преобразования их в форму, которую могут использовать модели машинного обучения. Когда это делается нерегулярно, это может привести к беспорядку кода, который требует много времени на написание, сложный в обслуживании и сложный для объяснения инженеру, которому поручено развернуть модель в действующей производственной системе.

Многообещающим решением этой проблемы является магазин функций. Сначала это очень похоже на базу данных / хранилище данных, содержащую необработанные исходные данные для всех ваших моделей машинного обучения. Однако он продвигает концепцию на шаг вперед, также сохраняя все преобразования, необходимые для преобразования необработанных данных во входные данные модели ML. Это дает три ключевых преимущества:

  1. Код подготовки данных теперь аккуратно организован, версионирован и доступен для обмена между разными группами данных;
  2. Сценарии обучения модели теперь проще, быстрее писать и легче понимать; и
  3. Одно и то же хранилище функций может обслуживать функции машинного обучения для моделирования сценариев обучения и для производственных систем, поэтому развертывание модели в действующий продукт становится намного проще.

Часть 2: Отслеживание

Обучение модели машинного обучения по своей природе является итеративным процессом: специалист по данным начинает с некоторой интуиции относительно того, какой подход может работать для конкретной бизнес-проблемы, но затем ему нужно будет поэкспериментировать, чтобы узнать, как реализовать и настроить подходящую систему. В отличие от традиционного программного обеспечения, трудно понять, насколько хорошо данная система машинного обучения будет работать, пока она не будет протестирована, настроена и многократно улучшена.

Отслеживание этих итераций важно для обеспечения:

  1. Повторяемость - как только вы найдете шаги, необходимые для создания отличной модели, вы должны убедиться, что не забыли их; и
  2. Прослеживаемость - с записью различных подходов к моделированию, которые вы пробовали, вы получите доказательства того, что сработало, а что нет.

Подобное управление экспериментами с машинным обучением означает, что специалисты по данным тратят меньше времени на тупиковые пути и имеют простой способ определять и сравнивать лучшие модели.

Часть 3: Развертывание

Как превратить модель в пригодный для использования конечный продукт, и как ее следует поддерживать и обновлять по мере необходимости? Без правильных инструментов это может быть медленным, дорогостоящим и подверженным ошибкам, требуя от разработчиков программного обеспечения тщательного выбора незнакомого кода машинного обучения, переданного специалистом по данным.

Вместо этого нам нужны способы быстрого и простого развертывания моделей машинного обучения, при этом гарантируя, что:

  1. Производственная система получает обновленные версии тех же данных / функций, которые использовались специалистом по данным при обучении; и
  2. Модели могут быть версированы и автоматически проверены на такие характеристики, как точность и справедливость, так что только машинное обучение хорошего качества попадает в руки конечного пользователя.

Резюме: MLOps сегодня

Хорошая новость заключается в том, что решение каждой из этих проблем с каждым днем ​​становится все проще, с появлением новых стартапов и программных инструментов, связанных с машинным обучением. Следующим этапом для специалистов по обработке данных является более широкое внедрение этих инструментов и подходов, но для этого необходимо, чтобы программное обеспечение MLOps стало более удобным и знакомым. Программные инструменты, такие как Feast и KubeFlow, представляют собой мощные решения для многих проблем, описанных выше, но часто пугающие при настройке и недоступные для небольших групп по анализу данных.

дальнейшее чтение

В ByteHub.ai мы создаем простой в использовании магазин функций, который помогает специалистам по данным стать более продуктивными. Свяжитесь с нами, если вы хотите узнать больше.