5 лучших практик для запуска моделей машинного обучения в производство

В нашей предыдущей статье — 5 проблем, к которым нужно быть готовым при масштабировании моделей ML, мы обсудили пять основных проблем при создании масштабируемых моделей машинного обучения (ML). Наша цель в этой части — установить лучшие практики, которые сделают проект ML успешным.

Сегодня модели машинного обучения решают множество конкретных бизнес-задач в различных отраслях. Метод выбора модели машинного обучения во многом зависит от варианта использования в бизнесе, который мы пытаемся решить. Но прежде чем двигаться дальше, мы должны убедиться, что выбранный подход к построению моделей можно использовать в производстве.

Опрос Sigmoid перед веб-семинаром показал, что 43 % компаний считают внедрение и интеграцию машинного обучения сложными.

Из-за сложности правильные риски должны быть устранены на ранней стадии производственного процесса. Устранение большего количества рисков на более ранних этапах выбора и разработки модели приводит к меньшему количеству доработок на этапе производства.

Различные факторы, связанные с экосистемой машинного обучения, включают наборы данных, технологический стек, реализацию и интеграцию этих двух элементов, а также команды, которые развертывают модели машинного обучения. Затем приходите к отказоустойчивой среде тестирования, чтобы обеспечить стабильные бизнес-результаты.

Используя передовой опыт, приведенный ниже, Yum! Бренды смогли добиться роста продаж на 8%, внедрив свои модели MAB для персонализированного маркетинга по электронной почте. Посмотрите двухминутное видео, в котором Скотт Каспер (Scott Kasper) из Yum объясняет влияние лучших практик на производство своих моделей MAB

1. Оценка данных

Для начала следует проверить пригодность данных — есть ли у нас вообще нужные наборы данных для запуска моделей машинного обучения? Достаточно ли быстро мы получаем данные, чтобы делать прогнозы?

Например, сети ресторанов (QSR) с доступом к данным миллионов зарегистрированных клиентов. Этого объема достаточно, чтобы любая модель машинного обучения работала поверх него.

Когда вышеуказанные риски данных будут снижены, следует настроить среду озера данных с простым и мощным доступом к различным необходимым источникам данных. Озеро данных (вместо традиционных хранилищ) избавило бы команду от множества бюрократических и ручных накладных расходов.

На этом этапе крайне важно поэкспериментировать с наборами данных, чтобы убедиться, что данные содержат достаточно информации для желаемых изменений в бизнесе. Кроме того, основным требованием является масштабируемая вычислительная среда для быстрой обработки доступных данных.

Когда специалисты по данным очистят, структурируют и обработают различные наборы данных, мы настоятельно рекомендуем каталогизировать данные для использования в будущем.

В конце концов, необходимо внедрить надежную и продуманную систему управления и безопасности, чтобы разные команды в организации могли свободно обмениваться данными.

2. Модель машинного обучения и стек технологий

После того, как модели машинного обучения выбраны, их следует запустить вручную, чтобы проверить их достоверность. Например, в случае персонализированного маркетинга по электронной почте — приносят ли рассылаемые рекламные письма новые конверсии или нам нужно пересмотреть нашу стратегию?

После успешных ручных испытаний необходимо выбрать правильную технологию. Команды специалистов по обработке и анализу данных должны иметь возможность выбирать из ряда технологических стеков, чтобы они могли экспериментировать и выбирать тот, который упрощает производство машинного обучения.

Выбранную технологию следует сравнить со стабильностью, вариантами использования в бизнесе, будущими сценариями и готовностью к облаку. Gartner утверждает, что облачная IaaS, по прогнозам, будет расти на 24% в годовом исчислении до 2022 года.

Посмотрите минутное видео, в котором Маюр Рустаги (технический директор и соучредитель Sigmoid) рассказывает о проверенных подходах к выбору компонентов инфраструктуры

3. Упрощение развертывания

Настоятельно рекомендуется стандартизировать процесс развертывания, чтобы тестирование и интеграция на разных этапах проходили гладко.

Инженеры данных должны сосредоточиться на доработке кодовой базы, интеграции модели (в качестве конечной точки API или модели массового процесса) и создании автоматизации рабочих процессов, чтобы команды могли легко интегрироваться.

Полная среда с доступом к нужным наборам данных и моделям необходима для успеха любой модели машинного обучения.

4. После развертывания и тестирования

Правильные платформы для регистрации, мониторинга и составления отчетов о результатах сделали бы процесс тестирования, который в противном случае был бы сложным, управляемым.

Среду машинного обучения следует тестировать в режиме реального времени и тщательно контролировать. В сложной экспериментальной системе результаты тестирования должны быть отправлены обратно группам обработки данных, чтобы они могли обновить модели.

Например, инженеры данных могут принять решение увеличить вес вариантов, которые имеют повышенную производительность в следующей итерации, и недооценить менее эффективные варианты.

Отрицательные или крайне неправильные результаты также следует остерегаться. Необходимо соблюдать правильные SLA. Необходимо контролировать качество данных и производительность модели.

Таким образом, производственная среда будет постепенно стабилизироваться.

5. Общение и люди

Успех каждой модели машинного обучения в огромной степени зависит от четкого взаимодействия между различными задействованными межфункциональными командами, чтобы минимизировать риски на правильном этапе.

Команды инженеров и специалистов по обработке и анализу данных должны будут работать вместе, чтобы внедрить модель машинного обучения в производство. Специалистам по данным рекомендуется иметь полный контроль над системой, чтобы проверять код и видеть результаты производства. Команды, возможно, даже должны быть обучены новым условиям.

В конце концов, прозрачное общение сэкономит всем усилия и время.

Вывод:

В дополнение ко всем вышеперечисленным передовым методам, модель машинного обучения должна быть спроектирована таким образом, чтобы ее можно было повторно использовать и она была устойчива к изменениям и резким событиям. Наилучший сценарий — не использовать все рекомендуемые методы, а сделать определенные области достаточно зрелыми и масштабируемыми, чтобы их можно было калибровать вверх и вниз в соответствии со временем и бизнес-требованиями.

Пожалуйста, напишите нам, если у вас есть дополнительные вопросы о внедрении моделей машинного обучения в производство. Чтобы просмотреть полную запись вебинара Производство моделей машинного обучения в масштабе, нажмите здесь.