Публикации по теме 'data-engineering'
Supercharge Python Data Engineering: раскрытие возможностей генераторов
Генераторы в Python — невероятно мощный инструмент, который позволяет нам создавать итераторы эффективным и удобным для памяти способом. Они предлагают более элегантное решение по сравнению с традиционными функциями, генерируя значения на лету, без необходимости хранить их все в памяти сразу. В этой статье мы рассмотрим концепцию генераторов, почему и когда их использовать, и как они могут быть выгоднее обычных функций в реальных сценариях программирования.
Понимание генераторов:..
Инжиниринг данных — Неделя 1
Неделя 1 — Курс Zoomcamp по инженерии данных: введение и предпосылки
Цель этого курса — создать конвейер данных на основе набора данных, такого как данные TLC Trip Record Data , который касается посадок и высадок в Нью-Йорке.
Вот архитектура того, что мы хотим сделать в этом курсе:
Мы возьмем эти данные, обработаем их, затем загрузим в облачное хранилище Google и…
Нанесение водяных знаков на изображение с помощью компьютерного зрения
В этом уроке мы создадим приложение для водяных знаков изображения. Прежде чем мы углубимся в детали, давайте посмотрим, как их можно применять в бизнесе. Что касается важности водяных знаков изображений, то они играют важную роль в защите документов от несанкционированного использования (нарушения авторских прав). Кроме того, если для одного и того же приложения имеется правильный конвейер, это экономит значительное количество времени, поскольку водяные знаки нужно будет нанести на..
Подготовка данных к развертыванию: генеративный искусственный интеллект с ClearScape Analytics™ и поставщиками облачных услуг
ClearScape Analytics, неотъемлемая часть Teradata Vantage™, предлагает значительную ценность для организаций, желающих воспользоваться преимуществами генеративного искусственного интеллекта. ClearScape Analytics оптимизирует каждый этап жизненного цикла машинного обучения, включая понимание и определение проблемы, предварительную обработку соответствующих данных, обучение модели, развертывание модели и операции с моделью.
В этом посте мы исследуем комплексный конвейер генеративного..
Магазин функций для науки о данных: краткое описание
Почему магазин функций:
Чтобы разобраться в хранилищах функций, нам нужно сначала понять, что это за функции. Данные, которые мы передаем в модели машинного обучения, называются функциями. Данные, полученные в реальном мире, не всегда позволяют делать прогнозы на будущее. Вам необходимо выполнять агрегирование, преобразование, объединение данных для создания новых функций на основе ваших бизнес-/ предметных / статистических знаний. Я твердо верю, что именно в этом специалисты по..
Использование PySpark для обработки файлов ORC: подробное руководство
Файлы PySpark и ORC: идеальное сочетание для обработки больших данных
вступление
ORC (Optimized Row Columnar) — это формат файла, используемый для хранения крупномасштабных наборов данных в виде столбцов. Файлы ORC оптимизированы для аналитических запросов, предлагая значительное повышение производительности по сравнению с форматами хранения на основе строк, такими как CSV или JSON.
В PySpark файлы ORC поддерживаются «из коробки», что позволяет пользователям легко читать и..
Что отличает ChatGPT от других чат-ботов с искусственным интеллектом?
ChatGPT, основанный на архитектуре GPT-3.5, имеет несколько отличительных особенностей, которые отличают его от других чат-ботов с искусственным интеллектом:
Понимание языка и генерация: ChatGPT использует передовые методы обработки естественного языка для понимания и создания текста, похожего на человеческий. Он может понимать сложные запросы, следить за разговорами в несколько ходов и давать согласованные и контекстуально релевантные ответы. Это обеспечивает более увлекательные и..