Публикации по теме 'airflow'


4 лучших современных инструмента оркестрации потоков данных в 2023 году
В современном мире, управляемом данными, управление конвейерами данных и рабочими процессами может быть сложной и трудоемкой задачей. Инструменты оркестрации потоков данных помогают автоматизировать этот процесс, управляя рабочими процессами данных, планируя задания по обработке данных и отслеживая конвейеры данных. В этом сообщении блога мы обсудим четыре лучших инструмента оркестровки потоков данных, доступных сегодня на рынке. Воздушный поток Apache Apache Airflow — это..

8 вещей, которые я хотел бы знать о Airflow до того, как начал организовывать рабочие процессы машинного обучения
Apache Airflow — это широко распространенный инструмент, используемый для организации конвейеров данных и рабочих процессов во многих организациях. Его богатая экосистема операторов, инструментов и плагинов позволяет интегрировать и координировать практически все, что вы можете себе представить в области данных и машинного обучения (ML). Airflow успешно используется для организации рабочих процессов и конвейеров машинного обучения. Хотя этот вариант использования не так широко..

13. Подключение Airflow к локальной базе данных Postgres
Мои личные заметки из книги «Конвейеры данных с Apache Airflow» Баса Харенслака и Джулиана де Руйтера — глава 4, часть 3 📚 Похожие посты: Введение в Airflow — Глава 2, Часть 1 Локальный запуск Airflow (в среде Python) — Глава 2…

15. Триггерные правила в воздушном потоке
Мои личные заметки из книги «Конвейеры данных с Apache Airflow» Баса Харенслака и Джулиана де Рюйтера — глава 5, часть 2 Введение Эта серия постов подытоживает мои выводы из книги Баса Харенслака и Джулиана де Рюйтера. Если вам нравится содержание, вы можете приобрести книгу на Manning .

Создание вашего первого конвейера данных (1)
Создание вашего первого конвейера данных (1) базовое пошаговое руководство о том, как построить свой первый конвейер и инструменты, которые вы будете использовать Введение: Современные конвейеры данных позволяют вашему бизнесу быстро и эффективно разблокировать данные внутри вашей организации. Они позволяют извлекать информацию из ее источника, преобразовывать ее в пригодную для использования форму и загружать в свои системы, где вы можете использовать ее для принятия..

Как запустить dbt в Airflow
Автоматизированный рендеринг проектов dbt на Apache Airflow data b uild t ool (dbt) , несомненно, является одной из быстро развивающихся технологий в области обработки данных и аналитики. dbt служит инструментом преобразования данных, играя решающую роль на Т-этапе конвейеров ELT . Это позволяет командам эффективно развертывать аналитический код, придерживаясь лучших практик разработки программного обеспечения. Эти методы включают модульность, непрерывную интеграцию и..

Выполнение асинхронных вызовов API с помощью динамического сопоставления задач Airflow
Если вы работаете с Airflow, есть вероятность, что некоторым из ваших DAG может потребоваться доступ к данным, полученным через API. Подобная ситуация произошла с нами, и мы оказались в месте, где нам нужно было сделать около 200 вызовов API для некоторых данных, чтобы соединить их с некоторыми существующими данными из другого источника. Разумным подходом является использование PythonOperator вместе с функцией, которая использует asyncio для неблокирующих HTTP-запросов. Мне было..