Публикации по теме 'data-engineering'


ELT: преобразование извлечения нагрузки в современной интеграции данных
В мире интеграции данных процесс извлечения, загрузки и преобразования (ELT) появился как альтернатива традиционному процессу извлечения, преобразования и загрузки (ETL). С увеличением объема данных и достижений в области систем хранения данных ELT набирает популярность благодаря своей способности использовать мощь современных хранилищ данных и озер данных для преобразования данных. В этом посте мы обсудим процесс ELT, его преимущества и роль в современной интеграции данных. Процесс ELT..

10 советов по защите вашей платформы данных от рецессии
Надвигающийся экономический климат (рецессия) вынудил многие предприятия пересмотреть свои расходы на технологии. Одной из областей, которую часто упускают из виду, является обработка больших данных. Конвейеры данных — это ряд процессов, которые берут данные из источника и перемещают их к месту назначения. Во многих случаях конвейеры данных строятся с использованием дорогого проприетарного программного обеспечения. Однако существует ряд способов сэкономить на затратах на..


Докеризируйте свою модель машинного обучения, чтобы обучить ее на GCP!
Соответствующий код можно найти здесь, в моем репозитории GitHub , вы можете использовать его по своему усмотрению. Каков вариант использования? Вы только что создали крутую модель машинного обучения, которую вам нужно обучить, и, к сожалению, у вас нет необходимых ресурсов для выполнения ваших вычислений, поэтому первая идея, которая у вас может возникнуть, — это перейти к существующим облачным решениям, таким как GCP, которые дадут у вас «дешевая» вычислительная мощность… но…..

Типы проектов по разработке данных, о которых вам следует знать (для продвижения по карьерной лестнице)
Избегайте повторного выполнения одного и того же проекта и прогрессируйте в своей карьере инженера данных. Проработав около года на должности Data Engineer, прочитав массу статей и людей, делящихся своим опытом, я понял, что…

Инжиниринг качества наших конвейеров данных
Конвейер данных — это программное обеспечение, которое получает данные из нескольких источников, преобразует их и, наконец, делает доступными для внутренних или внешних продуктов. Конвейеры данных по своей природе очень сложны в построении и еще сложнее в тестировании. Есть много аспектов построения конвейера данных, которые часто игнорируются и позволяют ошибкам просачиваться через утечки. Язык конвейеров данных не так важен, как его архитектура и поток данных. Я видел, поверьте..

Проверка данных с большими ожиданиями и рабочими процессами Argo
Большие надежды становятся нативными для Kubernetes Недавно на работе мы обсуждали, как будет выглядеть конвейер машинного обучения нашей мечты. В качестве фонового исследования мы наткнулись на пакет Большие надежды , который выглядит очень многообещающе в качестве шага проверки данных в нашем пайплайне. В этой статье я собираюсь изучить использование Great Expectations как части рабочего процесса Argo для запуска проверки данных во время предварительной обработки данных. Отказ от..