5 лучших практик для запуска моделей машинного обучения в производство
В нашей предыдущей статье — 5 проблем, к которым нужно быть готовым при масштабировании моделей ML, мы обсудили пять основных проблем при создании масштабируемых моделей машинного обучения (ML). Наша цель в этой части — установить лучшие практики, которые сделают проект ML успешным.
Сегодня модели машинного обучения решают множество конкретных бизнес-задач в различных отраслях. Метод выбора модели машинного обучения во многом зависит от варианта использования в бизнесе, который мы пытаемся решить. Но прежде чем двигаться дальше, мы должны убедиться, что выбранный подход к построению моделей можно использовать в производстве.
Опрос Sigmoid перед веб-семинаром показал, что 43 % компаний считают внедрение и интеграцию машинного обучения сложными.
Из-за сложности правильные риски должны быть устранены на ранней стадии производственного процесса. Устранение большего количества рисков на более ранних этапах выбора и разработки модели приводит к меньшему количеству доработок на этапе производства.
Различные факторы, связанные с экосистемой машинного обучения, включают наборы данных, технологический стек, реализацию и интеграцию этих двух элементов, а также команды, которые развертывают модели машинного обучения. Затем приходите к отказоустойчивой среде тестирования, чтобы обеспечить стабильные бизнес-результаты.
Используя передовой опыт, приведенный ниже, Yum! Бренды смогли добиться роста продаж на 8%, внедрив свои модели MAB для персонализированного маркетинга по электронной почте. Посмотрите двухминутное видео, в котором Скотт Каспер (Scott Kasper) из Yum объясняет влияние лучших практик на производство своих моделей MAB
1. Оценка данных
Для начала следует проверить пригодность данных — есть ли у нас вообще нужные наборы данных для запуска моделей машинного обучения? Достаточно ли быстро мы получаем данные, чтобы делать прогнозы?
Например, сети ресторанов (QSR) с доступом к данным миллионов зарегистрированных клиентов. Этого объема достаточно, чтобы любая модель машинного обучения работала поверх него.
Когда вышеуказанные риски данных будут снижены, следует настроить среду озера данных с простым и мощным доступом к различным необходимым источникам данных. Озеро данных (вместо традиционных хранилищ) избавило бы команду от множества бюрократических и ручных накладных расходов.
На этом этапе крайне важно поэкспериментировать с наборами данных, чтобы убедиться, что данные содержат достаточно информации для желаемых изменений в бизнесе. Кроме того, основным требованием является масштабируемая вычислительная среда для быстрой обработки доступных данных.
Когда специалисты по данным очистят, структурируют и обработают различные наборы данных, мы настоятельно рекомендуем каталогизировать данные для использования в будущем.
В конце концов, необходимо внедрить надежную и продуманную систему управления и безопасности, чтобы разные команды в организации могли свободно обмениваться данными.
2. Модель машинного обучения и стек технологий
После того, как модели машинного обучения выбраны, их следует запустить вручную, чтобы проверить их достоверность. Например, в случае персонализированного маркетинга по электронной почте — приносят ли рассылаемые рекламные письма новые конверсии или нам нужно пересмотреть нашу стратегию?
После успешных ручных испытаний необходимо выбрать правильную технологию. Команды специалистов по обработке и анализу данных должны иметь возможность выбирать из ряда технологических стеков, чтобы они могли экспериментировать и выбирать тот, который упрощает производство машинного обучения.
Выбранную технологию следует сравнить со стабильностью, вариантами использования в бизнесе, будущими сценариями и готовностью к облаку. Gartner утверждает, что облачная IaaS, по прогнозам, будет расти на 24% в годовом исчислении до 2022 года.
Посмотрите минутное видео, в котором Маюр Рустаги (технический директор и соучредитель Sigmoid) рассказывает о проверенных подходах к выбору компонентов инфраструктуры
3. Упрощение развертывания
Настоятельно рекомендуется стандартизировать процесс развертывания, чтобы тестирование и интеграция на разных этапах проходили гладко.
Инженеры данных должны сосредоточиться на доработке кодовой базы, интеграции модели (в качестве конечной точки API или модели массового процесса) и создании автоматизации рабочих процессов, чтобы команды могли легко интегрироваться.
Полная среда с доступом к нужным наборам данных и моделям необходима для успеха любой модели машинного обучения.
4. После развертывания и тестирования
Правильные платформы для регистрации, мониторинга и составления отчетов о результатах сделали бы процесс тестирования, который в противном случае был бы сложным, управляемым.
Среду машинного обучения следует тестировать в режиме реального времени и тщательно контролировать. В сложной экспериментальной системе результаты тестирования должны быть отправлены обратно группам обработки данных, чтобы они могли обновить модели.
Например, инженеры данных могут принять решение увеличить вес вариантов, которые имеют повышенную производительность в следующей итерации, и недооценить менее эффективные варианты.
Отрицательные или крайне неправильные результаты также следует остерегаться. Необходимо соблюдать правильные SLA. Необходимо контролировать качество данных и производительность модели.
Таким образом, производственная среда будет постепенно стабилизироваться.
5. Общение и люди
Успех каждой модели машинного обучения в огромной степени зависит от четкого взаимодействия между различными задействованными межфункциональными командами, чтобы минимизировать риски на правильном этапе.
Команды инженеров и специалистов по обработке и анализу данных должны будут работать вместе, чтобы внедрить модель машинного обучения в производство. Специалистам по данным рекомендуется иметь полный контроль над системой, чтобы проверять код и видеть результаты производства. Команды, возможно, даже должны быть обучены новым условиям.
В конце концов, прозрачное общение сэкономит всем усилия и время.
Вывод:
В дополнение ко всем вышеперечисленным передовым методам, модель машинного обучения должна быть спроектирована таким образом, чтобы ее можно было повторно использовать и она была устойчива к изменениям и резким событиям. Наилучший сценарий — не использовать все рекомендуемые методы, а сделать определенные области достаточно зрелыми и масштабируемыми, чтобы их можно было калибровать вверх и вниз в соответствии со временем и бизнес-требованиями.
Пожалуйста, напишите нам, если у вас есть дополнительные вопросы о внедрении моделей машинного обучения в производство. Чтобы просмотреть полную запись вебинара Производство моделей машинного обучения в масштабе, нажмите здесь.