Операционализация моделей машинного обучения

Многие компании хотят использовать машинное обучение, но немногие готовы интегрировать машинное обучение в реальный контекст операций. Доктор Муфаджул Али , архитектор решений для данных Microsoft, описывает, как Microsoft решает эти потребности и предлагает несколько советов компаниям, которые хотят ввести в действие модели машинного обучения и создать культуру машинного обучения.

[Статья по теме: Как выбрать машинное обучение или глубокое обучение для вашего бизнеса]

Проблемы при вводе в действие

Специалисты по обработке данных часто вынуждены работать изолированно. Они создают красивые модели, которые никто не может понять, и эти модели обычно не имеют реальной ценности для бизнеса. Это разрозненное хранилище - прямой вызов для бизнеса, осознающего истинную ценность того, что делают группы по обработке данных.

Нечеткость этой точки зрения не дает предприятиям понять, от конца до конца пути их данных. Типичный жизненный цикл науки о данных скрыт и изолирован от реальной бизнес-ценности, что замедляет процесс и не позволяет всей команде в полной мере извлечь выгоду из создаваемых идей. Это расточительно и беспорядочно.

Если процесс изолирован от предприятия, выводы не будут использоваться в общем процессе. Компании ищут аналитические платформы, которые могут использовать данные в реальном времени как в неструктурированных, так и в структурированных моделях, а также в пакетном уровне, который запланирован и постоянно отслеживается. Имея эту платформу, специалисты по обработке данных переходят от создания моделей к интегрированному непрерывному конвейеру анализа данных.

Пространства реальной жизни

Один из примеров этого сквозного конвейера выглядит следующим образом.

Источники данных - это структурированные, полуструктурированные и структурированные данные. Работая с этим объемом, фабрика данных принимает данные и сохраняет их в блочном хранилище. После того, как он каталогизирован и сохранен, вы можете развернуть процесс обучения.

Эти процессы согласованы и автоматизированы, что позволяет вашим специалистам по данным эффективно моделировать и обеспечивать понимание. В первую очередь трубопровод строится для решения бизнес-проблемы. Оттуда модель сериализуется для развертывания в целевом контексте. После сериализации он может последовательно атаковать целевой контекст.

Оптимизация фреймворков для различных платформ может быть проблемой, как выяснила Microsoft при разработке этих экосистем для ввода в действие. Это может вызвать фрагментацию ваших команд - ужасную разрозненность, мешающую настоящему сотрудничеству в рамках машинного обучения.

Один из способов решения этой проблемы Microsoft - создание промежуточного представления. Эти модели взаимодействуют с другими средами выполнения и процессорами, что позволяет командам лучше работать вместе, не сталкиваясь с общими проблемами связи.

Цели эксплуатации

Конечная цель введения в действие - стандартизация. Сериализованные модели должны быть совместимы, чтобы вы не были привязаны к определенным фреймворкам. Поставщики оборудования могут оптимизировать модель для целевой, а не для конкретной среды. Microsoft работает над этой стандартизацией через ONNX.

Как только вы овладеете функциональной совместимостью, вся экосистема станет хорошо масштабируемой. Принципы разработки таких вещей, как ONNX, заключаются в поддержке DNN в дополнение к традиционному ML. Возможности Microsoft достаточно гибкие, чтобы развиваться и обеспечивать компактное кроссплатформенное представление. По мере того, как все больше программ переходят к этому типу работоспособности, предприятия смогут лучше строить свои трубопроводы, не беспокоясь об экологических проблемах.

[Статья по теме: 5 ошибок, которые вы делаете с DataOps]

Построение через ONNX

ONNX допускает высокоуровневый IR через модель, график и вычислительный узел. ONNX поддерживает несколько типов данных, включая тензорные и нетензорные типы, через ONNX-ML. Встроенные операторы определяются по имени, домену и версии, что позволяет настраивать операции и экспериментальные операторы в дополнение к вашей основной группе.

Система стандартизирует функции, определенные спецификацией ONNX, но вы также можете выполнять настройку модели. Среди крупных фреймворков, использующих ONNX, - PyTorch и PaddlePaddle, а среди конвертеров - Mathworks и Scikit Learn.

AWS является партнером, в том числе Microsoft, NVidia и Intel. Вы даже можете использовать ONNX для преобразования модели TensorFlow Google, предоставляя вам поддержку для вещей, не относящихся к стандарту.

Что это означает для повышения ценности бизнеса

Цели ввода в эксплуатацию больше, чем у ONNX. Microsoft стремится к бессерверной архитектуре и контейнеризации на основе докеров. С бессерверной архитектурой вы не будете беспокоиться о внутренней инфраструктуре. Вместо этого вы сосредотачиваетесь на том, что действительно интересно вашему бизнесу, будь то масштаб или конкретная задача. Серверная часть обрабатывается от вашего имени.

С контейнеризацией на основе Docker вы никогда не будете беспокоиться о том, что ваши системы будут невоспроизводимы. Вместо этого каждая система построена в виде автономной системы, которая может развертывать любые микросервисы, которые вам нужны, не беспокоясь о связи.

Так что это значит для вашего бизнеса? Это избавляет от необходимости вручную составлять докер и передавать внутреннюю инфраструктуру, а также возвращает вашу группу обработки данных туда, где они должны быть, и запускает программы для анализа бизнеса. Он масштабируемый и позволяет различным членам команды влиться в конвейер, устраняя разрозненность и эффективно создавая операционную культуру для ваших потребностей в данных.

По мере того как все больше компаний, фреймворков и сред приступают к стандартизации, способность вашей организации создавать конвейер и официально вводить в действие становится все проще. Даже когда некоторые аспекты, такие как Google, решают идти своим путем, стандартизация позволяет вам преобразовать во что-то, что взаимодействует с вашими программами, и не мешает вашему бизнесу строить этот конвейер. Результат? Лучшее и быстрое понимание, которое приносит пользу для бизнеса.

Оригинальный пост здесь.

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг.