Публикации по теме 'data-engineering'


Учебное пособие по Docker Compose: пошаговое руководство по созданию и подключению контейнеров
Docker — это платформа, которая позволяет создавать, совместно использовать и запускать приложения с использованием контейнеров. Контейнеры — это изолированные среды, которые упаковывают все необходимое для запуска приложения, например код, библиотеки, зависимости и файлы конфигурации. Контейнеры легкие и портативные, что означает, что вы можете запускать их на любой машине, на которой установлен Docker. В этом посте я покажу вам, как использовать некоторые расширенные функции..

Как использовать Ydata-Profiling с API Great Expectations V3
Почти все задачи машинного обучения зависят от данных в той или иной форме. Чтобы генерировать высококачественные данные, командам специалистов по обработке и анализу данных необходим прямой доступ к данным и четкое понимание каждого актива данных. Качество данных является неотъемлемой частью успешного развертывания моделей машинного обучения. В Provectus мы понимаем важность качественных данных . В нашей структуре качества данных мы используем комбинацию Pandas Profiling (PP) для..

Создание автоматизированной системы оповещения о рассылках на основе Python
Введение После четкого понимания того, как ваша организация обрабатывает свою базу данных, создает свои отчеты и запускает свои процессы, важно начать думать об автоматизации по разным причинам. В этой статье будут рассмотрены шаги по созданию системы оповещения, которая автоматически отправляет электронные письма и сообщения после проверки определенных условий в базе данных организации. Для этого проекта я использовал Python, базу данных Oracle и планировщик Windows. Шаги проекта..

Основы работы с большими данными в Google Cloud Platform
ОБЛАЧНЫЕ ВЫЧИСЛЕНИЯ | БОЛЬШИЕ ДАННЫЕ | ТЕХНОЛОГИИ Основы работы с большими данными в Google Cloud Platform Часть 2. Путь к Google Cloud Professional Data Engineer Добро пожаловать во вторую часть серии сертификаций GCP Professional Data Engineer Certification. В первой части мы представили облачную платформу Google и ее иерархию. Вы можете найти Часть 1 здесь: [Часть 1] — Путь к Google Cloud Professional Data Engineer — Введение в Google Cloud…..

Что такое Apache Arrow и чем он отличается от Apache Parquet?
Если вы читаете эту статью, не волнуйтесь, вы не одиноки, кто считает, что apache arrow — это альтернатива apache parquet. Даже у меня сложилось такое первое впечатление, когда я впервые услышал об apache arrow. Но на самом деле они оба дополняют друг друга. Parquet  – это формат двоичных файлов, ориентированный на столбцы, для эффективного хранения файлов на диске с использованием передовых методов сжатия и кодирования, таких как кодирование длин серий, кодирование по словарю,..

Проект обработки данных —  Розничный магазин, часть 2 — Загрузка данных
Введение Это вторая часть серии «Проект инженерии данных — розничный магазин». После получения данных о виски для розничного магазина в части 1. Следующим шагом является продолжение процесса ETL и загрузка данных в центральную базу данных организации. Шаги проекта Генерация случайных данных. В этой части я буду использовать Python для генерации случайных данных о различных частях организации. 2. Разработайте центральную СУБД и примените нормализацию. 3. Загрузите данные в..

Журналы Python — это не код. Это Инструмент Коммуникации.
Воспринимайте журналы как коммуникацию плюс 3 не подлежащих обсуждению элемента, которые вы должны включить для функционального и прозрачного конвейера данных. Ваше настоящее и будущее Я будет ненавидеть вас за то, что вы забыли сделать эту рутинную работу по программированию Ничто не испортит сеанс программирования быстрее, чем плохой Wi-Fi в кафе. И в тот конкретный день, о котором я рассказываю, как бы я ни нуждался в ванильном латте, сидящем слева от меня, мне действительно был нужен..