Управление жизненным циклом разработки модели ML в масштабе требует координации многих действий (например, подготовки данных, разработки функций, обучения модели, проверки и тестирования, фактического развертывания, настройки и итерации). Последние три мы будем называть «Последняя миля™».

В небольших масштабах создание и управление отдельными конвейерами для каждой модели допустимо с несколькими локальными моделями. Специальные проекты между командами ограничивают типичные организационные процессы развертывания и управления. Если повезет, некоторые организации могут развертывать или повторять одну модель в месяц и много, всего несколько моделей в квартал. В любом случае, мы, скорее всего, найдем «Последнюю милю»™, застрявшую в тупике.

Даже если модель успешно поступает в производство, мы также обнаруживаем, что для выявления ошибок и получения качественных результатов модели требуется больше времени. ROI становится еще более неуловимым при постоянном мониторинге и обслуживании нескольких моделей и их версий. Однако все становится очень сложным очень быстро.

Наши клиенты говорят нам, что их «Последняя миля» полна наспех сшитых на заказ и дублирующих процессов, которые медленны, дороги, полны инцидентов и вскрытий. Кроме того, если командам, использующим несколько фреймворков (например, Tensorflow, Python, R, SAS), требуется новый конвейер для тестирования и развертывания каждой модели в каждом фреймворке. Использование моделей, написанных с использованием двух или более фреймворков, становится намного сложнее.

Это особенно верно, когда процессы выполняются локально, поскольку для этого требуется создание и обслуживание специализированных инструментов. Как правило, ценность машинного обучения фактически проявляется после развертывания, и ее достижение может быть сопряжено с проблемами. Таким образом, организации постепенно обнаруживают, что быстрое увеличение пропускной способности версий модели в производстве является залогом успешного процесса машинного обучения.

Мы обнаружили, что количество производственных моделей увеличивается линейно, в то время как сложность заказной (локальной) производственной среды увеличивается в геометрической прогрессии. Еще больше усложняет ситуацию то, что никто не владеет всем процессом, бюджетом и не имеет действительно целостного представления.

Взаимодействия «последней мили» между командами могут разочаровать и привести к остановке всего бизнеса. Предприятия избегают риска при внесении изменений в модели и попадают в порочный круг все более и более продолжительной задержки системы.

При таком уровне инженерных накладных расходов невозможно выделить команду на шесть месяцев для повторного проектирования и автоматизации последней мили™. Лес неизменно теряется за деревьями, и производительность страдает. В этом случае сложность приложения, размер базы кода, а также попытки ограничить стоимость или время проектов, скорее всего, помешают предприятию когда-либо запустить успешный новый проект Last Mile™.

Те немногие, кто определил и количественно оценил выгоду от стандартизации и нормализации этих процессов в производстве, начали работать с поставщиками решений, чтобы очистить и ускорить их Last Mile ™, не нарушая другие процессы. Поставщиков точек также легче заменить, если что-то пойдет не так. Кроме того, эти поставщики предоставляют централизованное пространство для своевременного развертывания, совместной работы и тестирования по мере необходимости (минуты или часы, а не дни).

Другие преимущества точечных решений заключаются в том, что они учитывают тот факт, что ни у одной команды нет достаточно большого бюджета, чтобы покрыть расходы на редизайн (что может стать элементом Cap-X). Кроме того, если что-то пойдет не так, их легче вырвать и заменить, чем расширять отношения с поставщиками, у которых есть проприетарные фреймворки (например, TIBCO, SAS).

«Наша внутренняя команда по анализу данных выросла до 30 человек за последние несколько лет. Поэтому по мере масштабирования мы начали понимать, что для поддержки потребностей бизнеса в нашей производственной инфраструктуре машинного обучения требуется автоматизация {нашей последней мили™}».

В случае с клиентом А было нанято четыре штатных инженера для управления их заказной «Последней милей™». По мере того, как число специалистов по обработке и анализу данных удваивается, потребность в инженерах возрастает втрое. Даже с этими наймами пропускной способности было недостаточно и головная боль была везде. Приобретя платформу точечных решений, клиент А не только сэкономил четыре FTE, но и получил возможность развертывания сотен моделей в процессе формовки печенья и достижения положительных моделей рентабельности инвестиций намного раньше.

Спасибо за чтение!

Чтобы увидеть больше статей, перейдите здесь!

Первоначально опубликовано на https://blog.datatron.com 26 апреля 2019 г. Автор Лалит Сирсикар.