Важность производственного и развивающего трубопроводов

«Эврика»! Работая над постоянно трудноразрешимой проблемой, вы нашли выгодное и выгодное решение. Чтобы упростить налоговую отчетность, вы решили оформить документы для открытия своего ООО. Вы понимаете важность разделения личных и деловых финансов. Если вам не удастся разделить свои финансы, подать налоговую декларацию, когда придет время, может стать очень запутанным и обременительным делом. Эта концепция очень похожа на построение конвейеров для различных сред, в частности сред разработки / непроизводства и развертывания / производства. Какова цель этих отдельных сред? В этом разделе мы рассмотрим преимущества разделения этих сред.

В процессе создания нашего решения для анализа данных мы разрабатываем серию шагов для выполнения операций, необходимых для достижения успеха. Мы извлекаем данные из нашего источника, проектируем наши функции, обучаем наши различные модели, проверяем на подмножестве наших исходных данных, а затем загружаем наши прогнозы. Хотя создать наше решение с помощью сценария несложно, мы можем быстро внести сложности с развертыванием конвейера. Почему и как мы можем сделать это заявление? Данные, которые мы используем в производстве, могут отличаться от данных, которые мы используем в разработке.

Только по этой причине нам нужны другие соображения или дополнительные шаги, чтобы компенсировать эти различия. Когда мы начинаем рассматривать синхронизацию данных с Data Lake, наше решение Data Science не должно синхронизировать прогнозы, которые мы делаем в процессе разработки, с Data Lake, которые увидят наши клиенты. В дополнение к вышеизложенному, на тесты стабильности и валидации будет влиять то, как мы строим наши конвейеры. Если наши конвейеры объединятся в один, будет сложно создавать проверки для обеспечения ожидаемой функциональности. Следуя этим концепциям и мыслям, мы можем избавить себя от «боли и страданий», ограничив наше внимание упрощением туннеля видения и разделением на части.

Зачем нужны отдельные конвейеры обучения и конвейеры прогнозирования?

В предыдущем подразделе мы обсудили важность наличия двух разных конвейеров между запуском нашего решения Data Science в разработке и производстве. Мы повышаем стабильность и тестируемость нашего конвейера. Однако, как упоминалось в предыдущем разделе, наши конвейеры легко разработать так, чтобы мы интегрировали процессы обучения и прогнозирования в один и тот же сценарий. Обычно в таких ситуациях в программное обеспечение передаются логические значения, указывающие, прогнозируем ли мы нашу модель машинного обучения или обучаем нашу модель машинного обучения. Объединение двух принципиально разных процессов вместе усложняет репозитории кода Data Science и снижает ремонтопригодность программного обеспечения и конвейера. Существуют концепции и принципы программного обеспечения для повышения ремонтопригодности и уменьшения когнитивной перегрузки. Принцип единой ответственности может применяться и использоваться для упрощения поддержки и управления процессами обучения и прогнозирования. Если этот принцип будет поддерживаться и применяться, конвейер прогнозирования может реально состоять из пяти базовых операций и до десяти строк кода. Следование этому принципу уменьшает то, что каждый член группы развертывания должен знать о конвейере обучения.

Спасибо, что дочитали до сих пор! Это часть серии следующих статей.

Пожалуйста, оставайтесь на связи!

Как всегда, #happycoding