Публикации по тегам data-engineering

Публикации по теме 'data-engineering'

Supercharge Python Data Engineering: раскрытие возможностей генераторов

Генераторы в Python — невероятно мощный инструмент, который позволяет нам создавать итераторы эффективным и удобным для памяти способом. Они предлагают более элегантное решение по сравнению с традиционными функциями, генерируя значения на лету, без необходимости хранить их все в памяти сразу. В этой статье мы рассмотрим концепцию генераторов, почему и когда их использовать, и как они могут быть выгоднее обычных функций в реальных сценариях программирования. Понимание генераторов:..

Инжиниринг данных — Неделя 1

Неделя 1 — Курс Zoomcamp по инженерии данных: введение и предпосылки Цель этого курса — создать конвейер данных на основе набора данных, такого как данные TLC Trip Record Data , который касается посадок и высадок в Нью-Йорке. Вот архитектура того, что мы хотим сделать в этом курсе: Мы возьмем эти данные, обработаем их, затем загрузим в облачное хранилище Google и…

Нанесение водяных знаков на изображение с помощью компьютерного зрения

В этом уроке мы создадим приложение для водяных знаков изображения. Прежде чем мы углубимся в детали, давайте посмотрим, как их можно применять в бизнесе. Что касается важности водяных знаков изображений, то они играют важную роль в защите документов от несанкционированного использования (нарушения авторских прав). Кроме того, если для одного и того же приложения имеется правильный конвейер, это экономит значительное количество времени, поскольку водяные знаки нужно будет нанести на..

Подготовка данных к развертыванию: генеративный искусственный интеллект с ClearScape Analytics™ и поставщиками облачных услуг

ClearScape Analytics, неотъемлемая часть Teradata Vantage™, предлагает значительную ценность для организаций, желающих воспользоваться преимуществами генеративного искусственного интеллекта. ClearScape Analytics оптимизирует каждый этап жизненного цикла машинного обучения, включая понимание и определение проблемы, предварительную обработку соответствующих данных, обучение модели, развертывание модели и операции с моделью. В этом посте мы исследуем комплексный конвейер генеративного..

Магазин функций для науки о данных: краткое описание

Почему магазин функций: Чтобы разобраться в хранилищах функций, нам нужно сначала понять, что это за функции. Данные, которые мы передаем в модели машинного обучения, называются функциями. Данные, полученные в реальном мире, не всегда позволяют делать прогнозы на будущее. Вам необходимо выполнять агрегирование, преобразование, объединение данных для создания новых функций на основе ваших бизнес-/ предметных / статистических знаний. Я твердо верю, что именно в этом специалисты по..

Использование PySpark для обработки файлов ORC: подробное руководство

Файлы PySpark и ORC: идеальное сочетание для обработки больших данных вступление ORC (Optimized Row Columnar) — это формат файла, используемый для хранения крупномасштабных наборов данных в виде столбцов. Файлы ORC оптимизированы для аналитических запросов, предлагая значительное повышение производительности по сравнению с форматами хранения на основе строк, такими как CSV или JSON. В PySpark файлы ORC поддерживаются «из коробки», что позволяет пользователям легко читать и..

Что отличает ChatGPT от других чат-ботов с искусственным интеллектом?

ChatGPT, основанный на архитектуре GPT-3.5, имеет несколько отличительных особенностей, которые отличают его от других чат-ботов с искусственным интеллектом: Понимание языка и генерация: ChatGPT использует передовые методы обработки естественного языка для понимания и создания текста, похожего на человеческий. Он может понимать сложные запросы, следить за разговорами в несколько ходов и давать согласованные и контекстуально релевантные ответы. Это обеспечивает более увлекательные и..