Публикации по теме 'data-engineering'


B23 объявляет об интеграции платформы данных B23 с Google Kubernetes Engine («GKE»).
Объявление о бессерверных потоках данных с использованием оператора Kubernetes B23 для Nifi-Fn Apache NiFi предоставляет большую и разнообразную библиотеку процессоров для сбора и преобразования данных, а также реестр потоков для управления версиями этих часто сложных потоков данных. B23 использует NiFi в нескольких инфраструктурах и платформах оркестровки, включая Kubernetes. Наша новаторская инженерная работа NiFi позволяет нам программно предоставлять потоки данных, используя..

4 простых шага к настройке конвейера данных ETL с нуля
Настройка конвейера ETL с помощью нескольких команд Чего не следует ожидать от этого блога? Управляемые решения ETL, такие как AWS Glue, AWS Data Migration Service или Apache Airflow. Облачные технологии управляются, но не бесплатны. И не рассматриваются в этой статье. Оглавление Что такое конвейер ETL? Каковы различные варианты использования конвейера ETL? Предварительные требования для ETL - Docker + Debezium + Kafka + Kafka Connect - Вид с высоты птичьего полета..

Как прогнозировать заказы на покупку для магазинов Shopify с использованием открытого исходного кода
Используйте интегрированное машинное обучение с открытым исходным кодом в MindsDB и платформу интеграции данных с открытым исходным кодом Airbyte для прогнозирования показателей магазина Shopify. Поскольку объем данных растет в геометрической прогрессии, для предприятий, ориентированных на электронную коммерцию, критически важно использовать эти данные как можно быстрее и эффективнее. Машинное обучение представляет собой прорыв в увеличении возможностей прогнозирования и принятия..

Data Engineers vs. Data Scientists: разница согласно данным LinkedIn
Инженер по данным и специалист по данным - два самых популярных направления карьеры в сфере больших данных. Есть хорошие ресурсы, объясняющие, чем эти роли похожи и различны, и как они работают вместе (список см. В конце этого сообщения). Стич недавно выпустил отчет, основанный на данных, предоставленных LinkedIn , который добавляет новое понимание этой темы. Список навыков LinkedIn показывает четкую разницу между инженерами данных и специалистами по данным. Бегло взгляните на эту..

Шпаргалка по гиперпараметрам
Краткое руководство по настройке гиперпараметров с использованием Scikit Learn GridSearchCV и компромиссу смещения / дисперсии Прежде чем мы углубимся, давайте начнем с быстрого определения. В машинном обучении гиперпараметр (иногда называемый параметром настройки или обучения) определяется как любой параметр, значение которого устанавливается / выбирается в начале процесса обучения. Тогда как другие значения параметров вычисляются во время обучения. В этом блоге мы обсудим..

3 эксперта по инженерии данных делятся своими мыслями о том, куда направляются данные
Может ли инженерия данных свергнуть науку о данных? 2021 год почти закончился, и кажется, что сотни миллионов долларов были вложены в инвестиции в данные, стартапы данных и машинное обучение. В частности, финансирование также сильно сместилось с сосредоточения внимания на области науки о данных и машинного обучения на область инженерии данных и управления данными . Конечно, если вы управляете данными на базе искусственного интеллекта, я уверен, что вы будете получать..

Управление зависимостями между конвейерами данных в Apache Airflow & Prefect
Простой подход к управлению зависимостями между вашими рабочими процессами Если вы когда-либо создавали конвейеры данных для взаимозависимых бизнес-процессов, вы могли заметить, что объединение всей бизнес-логики вашей компании в один рабочий процесс плохо работает и быстро превращается в кошмар обслуживания. Многие системы планирования рабочих процессов позволяют нам управлять зависимостями в рамках единого конвейера данных, но они не поддерживают нас в управлении зависимостями между..