Публикации по теме 'data-engineering'


Постоянство в конечном итоге: руководство для начинающих
Постоянство в конечном итоге: руководство для начинающих Распределенные системы обеспечивают широкий спектр преимуществ при проектировании современных систем, но сопряжены с компромиссами, которые необходимо учитывать. Если мы хотим, чтобы наша система была устойчива к разделам, нам нужно выбирать между строгой согласованностью и малой задержкой. Согласованность в конечном счете — это модель, которая позволяет системе быть устойчивой к разделам с высокой пропускной способностью и..

Машинное обучение, как я изучаю — 0.1.2 — Инженерия данных
Машинное обучение, как я изучаю — 0.1.2 — Data Engineering Давайте очистим некоторые данные На предыдущем этапе EDA мы проанализировали данные и попытались найти какую-то корреляцию между переменными. В Data Engineering мы очищаем и преобразовываем данные. Ссылка на набор данных, который мы будем использовать в этой и последующих статьях: https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data Загрузите набор данных из приведенного выше ссылку и извлеките..

Компонент приложения/работы Spark!!!
Мы рассмотрели Компоненты кластера Spark в моем последнем блоге. Пожалуйста, просмотрите его один раз, прежде чем переходить к этому блогу. Компоненты Spark Cluster и компонент Spark Application/Job — это две разные вещи, где Spark Cluster указывает физическую границу, как называются разные узлы и как разные компоненты несут ответственность за выполнение задания Spark, как Приложение/задание Spark указать виртуальную границу, где мы видим, как задание Spark разбивается на более..

Еще раз: функции с дробной дифференциацией
Разобраться в frac-diff несложно, остановимся на более простом методе. В последнее время я видел, как многие авторы объясняют дробно-дифференцированные (фракционно-дифференциальные) признаки точно так же, как это делают все остальные. Они усложняют. Давайте сделаем резервную копию на мгновение Функция — это данные, организованные в виде вектора (вы можете думать о векторе так же, как о столбце в Excel). Если бы этот вектор индексировался ежедневно, то каждая строка объекта..

Исправление ImportError: urllib3 v2.0 поддерживает только OpenSSL 1.1.1+
Исправление ImportError при импорте пакетов Python, которые полагаются на urllib3 и OpenSSL. Все больше разработчиков Python жалуются на сообщение об ошибке ImportError при попытке импортировать пакеты, зависящие от urrlib3 и OpenSSL , например openai пакет Python. В частности, ошибка указывает на то, что последние версии urllib3 поддерживают только версии OpenSSL , 1.1.1+ : ImportError: urllib3 v2.0 only supports OpenSSL 1.1.1+, currently the 'ssl' module is compiled..

Освоение сводных таблиц в dbt
Эта функция сэкономит вам часы боли при написании SQL. Сколько раз вам приходилось собирать слишком сложное решение для решения простой проблемы? Если вы когда-либо программировали раньше, вы, вероятно, можете перечислить хотя бы несколько примеров. Для меня несколько таких моментов были связаны со сводными таблицами. Они звучат так просто, но их сложно написать на SQL. К счастью, я недавно обнаружил, что dbt имеет функцию в dbt utils , которая делает создание сводных таблиц..

Как исправить TypeError: ObjectId не сериализуем в JSON
Преобразование курсора монго в объект JSON в Python Добро пожаловать в наш учебник по сериализации курсоров PyMongo в JSON. В этой статье мы расскажем, как правильно обрабатывать объекты ObjectId и datetime , а также любые другие объекты с помощью пользовательского файла JSONEncoder . Одной из распространенных задач при работе с PyMongo является необходимость сериализации данных для хранения или передачи по сети. В этом руководстве мы рассмотрим, как сериализовать курсор..