Публикации по теме 'data-engineering'
Учебное пособие по Docker Compose: пошаговое руководство по созданию и подключению контейнеров
Docker — это платформа, которая позволяет создавать, совместно использовать и запускать приложения с использованием контейнеров. Контейнеры — это изолированные среды, которые упаковывают все необходимое для запуска приложения, например код, библиотеки, зависимости и файлы конфигурации.
Контейнеры легкие и портативные, что означает, что вы можете запускать их на любой машине, на которой установлен Docker.
В этом посте я покажу вам, как использовать некоторые расширенные функции..
Как использовать Ydata-Profiling с API Great Expectations V3
Почти все задачи машинного обучения зависят от данных в той или иной форме. Чтобы генерировать высококачественные данные, командам специалистов по обработке и анализу данных необходим прямой доступ к данным и четкое понимание каждого актива данных. Качество данных является неотъемлемой частью успешного развертывания моделей машинного обучения.
В Provectus мы понимаем важность качественных данных . В нашей структуре качества данных мы используем комбинацию Pandas Profiling (PP) для..
Создание автоматизированной системы оповещения о рассылках на основе Python
Введение
После четкого понимания того, как ваша организация обрабатывает свою базу данных, создает свои отчеты и запускает свои процессы, важно начать думать об автоматизации по разным причинам.
В этой статье будут рассмотрены шаги по созданию системы оповещения, которая автоматически отправляет электронные письма и сообщения после проверки определенных условий в базе данных организации.
Для этого проекта я использовал Python, базу данных Oracle и планировщик Windows.
Шаги проекта..
Основы работы с большими данными в Google Cloud Platform
ОБЛАЧНЫЕ ВЫЧИСЛЕНИЯ | БОЛЬШИЕ ДАННЫЕ | ТЕХНОЛОГИИ
Основы работы с большими данными в Google Cloud Platform
Часть 2. Путь к Google Cloud Professional Data Engineer
Добро пожаловать во вторую часть серии сертификаций GCP Professional Data Engineer Certification. В первой части мы представили облачную платформу Google и ее иерархию. Вы можете найти Часть 1 здесь:
[Часть 1] — Путь к Google Cloud Professional Data Engineer — Введение в Google Cloud…..
Что такое Apache Arrow и чем он отличается от Apache Parquet?
Если вы читаете эту статью, не волнуйтесь, вы не одиноки, кто считает, что apache arrow — это альтернатива apache parquet. Даже у меня сложилось такое первое впечатление, когда я впервые услышал об apache arrow. Но на самом деле они оба дополняют друг друга.
Parquet – это формат двоичных файлов, ориентированный на столбцы, для эффективного хранения файлов на диске с использованием передовых методов сжатия и кодирования, таких как кодирование длин серий, кодирование по словарю,..
Проект обработки данных — Розничный магазин, часть 2 — Загрузка данных
Введение
Это вторая часть серии «Проект инженерии данных — розничный магазин». После получения данных о виски для розничного магазина в части 1. Следующим шагом является продолжение процесса ETL и загрузка данных в центральную базу данных организации.
Шаги проекта
Генерация случайных данных.
В этой части я буду использовать Python для генерации случайных данных о различных частях организации.
2. Разработайте центральную СУБД и примените нормализацию.
3. Загрузите данные в..
Журналы Python — это не код. Это Инструмент Коммуникации.
Воспринимайте журналы как коммуникацию плюс 3 не подлежащих обсуждению элемента, которые вы должны включить для функционального и прозрачного конвейера данных.
Ваше настоящее и будущее Я будет ненавидеть вас за то, что вы забыли сделать эту рутинную работу по программированию
Ничто не испортит сеанс программирования быстрее, чем плохой Wi-Fi в кафе. И в тот конкретный день, о котором я рассказываю, как бы я ни нуждался в ванильном латте, сидящем слева от меня, мне действительно был нужен..