Когда специалисты по данным обучают модели, они создают функции специально для среды разработки. Но эти функции должны быть переписаны инженерами данных, чтобы сделать их готовыми к работе. Проработав много лет в области машинного обучения и наблюдая, как этот разрозненный процесс повторяется снова и снова, последний год я провел, выступая за лучшее решение, которое сокращает циклы разработки, снижает риск обучения. - обслуживание перекосов, которые могут привести к неточным моделям в производстве из-за изменений кода, и поддерживает разработку функций в реальном времени. Это решение — магазин возможностей.

Год специализированного магазина

Многие члены сообщества машинного обучения назвали 2021 год «Годом магазина функций». Новые технологии, хранилища функций преобразовали рабочие конвейеры машинного обучения (MLOPs) и предоставили решение для мощного, стандартизированного и методичного запуска проектов ИИ в производство, упрощая создание функций и совместное использование функций.

Хранилище функций обычно называют централизованным репозиторием для хранения, совместного использования и управления функциями. Но более важная функция, которую выполняют некоторые хранилища функций, — это служба преобразования данных, которая может выполнять новые вычисления с потоковыми данными, например, агрегирование скользящих окон.

Входная переменная для модели машинного обучения, функция — это часть данных, описывающая явление. Есть два типа функций: офлайн и онлайн. Офлайн-функции не меняются часто, обрабатываются пакетами и рассчитываются с помощью Spark или SQL.

Онлайн-функции, с другой стороны, являются динамическими и требуют механизма обработки. Иногда эти расчеты должны выполняться в режиме реального времени. Данные для этих функций хранятся в памяти или в очень быстрой базе данных "ключ-значение". Сам процесс может выполняться на различных сервисах в облаке или на выделенной платформе MLOps.

Хранилища функций используют масштабируемые высокопроизводительные конвейеры данных для преобразования необработанных данных в функции. Это достигается за счет того, что командам машинного обучения предоставляется возможность один раз определить функции и развернуть их в рабочей среде без перезаписи.

Это значительное сокращение усилий особенно важно в тех случаях, когда требуется разработка функций в реальном времени. Чтобы понять, почему эти возможности так важны, рассмотрим множество вариантов использования, на которые повлияли радикальные изменения в поведении, связанные с пандемией COVID-19. Независимо от того, касается ли модель данных о поведении потребителей, рыночных тенденций, прогнозов спроса, предсказания мошенничества и многого другого, теперь особенно важно, чтобы бизнес-приложения могли адаптироваться к свежим данным. Всегда было важно отслеживать модели и поддерживать точность в качестве основного шага любой стратегии MLOps, но потрясения последних нескольких лет оказали дополнительное давление на организации, чтобы они адаптировались к свежим данным с онлайн-разработкой функций.

Среди преимуществ хранилища функций мы можем перечислить сокращение дублирующей работы, экономию времени, поддержание точности функций, предотвращение дрейфа, поддержание единого источника достоверности и поддержку действий по обеспечению безопасности и соответствия требованиям.

Вам нужен магазин функций? Это зависит.

Сложные варианты использования, требующие развертывания и управления несколькими моделями в производственной среде, выиграют от хранилища функций, особенно в случае данных в реальном времени. Конвейеры машинного обучения в реальном времени требуют очень быстрых механизмов обработки событий для расчета функций в реальном времени. Например, рекомендательные механизмы ИИ или приложения для предотвращения мошенничества требуют времени отклика в миллисекундах.

Чтобы иметь возможность поддерживать такую ​​обработку событий с малой задержкой, специалистам по обработке и анализу данных и инженерам необходим правильный набор инструментов, которые часто не поддерживаются моделью вычислений Spark должным образом. Хранилище функций решает эти сложные проблемы, используя одну и ту же логику для обучения и обслуживания функций. Время вычислений значительно сокращается, что является критическим фактором в сценариях использования в реальном времени.

Единственная характеристика, которая сделает или сломает ваш магазин функций

Несколько новых магазинов функций стали общедоступными в прошлом году, и ожидается, что появится еще больше. При принятии решения о том, какое из этих хранилищ функций реализовать, убедитесь, что оно может интегрироваться с другими компонентами в вашем стеке MLOps. Использование интегрированного хранилища функций упростит жизнь всем в вашей команде благодаря мониторингу, автоматизации конвейера и нескольким уже доступным вариантам развертывания без необходимости большого количества связующей логики и обслуживания.

Исходное сообщение здесь.

Читайте другие статьи по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от начального до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг. Вы также можете пройти обучение по науке о данных по запросу, где бы вы ни находились, с помощью нашей платформы Ai+ Training.