Публикации по теме 'data-engineering'


Выпуск RAPIDS 23.06  — «Ускорение науки о данных»
Релиз RAPIDS 23.06 уже доступен! В этом выпуске добавлен ряд функций и улучшений, которые нам очень нравятся, в том числе: Основные улучшения cuSpatial, включая поддержку DE-9IM, пакеты pip, улучшения производительности и улучшенные примеры блокнотов. Интеграция RAFT с Implicit (совместная фильтрация) и FAISS Meta (поиск сходства), а также улучшения в pylibraft Улучшения производительности и использования памяти в cuGraph Поддержка часового пояса и многочисленные улучшения..

Как я сдал сертификационный экзамен инженера по данным Google Cloud Professional
Без рекомендованного 3-летнего практического опыта * Примечание. Эта статья посвящена сертификационному экзамену Google Cloud Professional Data Engineer Certification до 29 марта 2019 г. После этой даты были внесены некоторые изменения. Я включил их в раздел Дополнительно * Итак, вы хотите получить новую толстовку с капюшоном, похожую на ту, что у меня на обложке? Или вы хотели получить Сертификат специалиста по обработке данных Google Cloud Professional и не знаете, как..

Как более эффективно реверсировать списки Python
Эффективное обращение списков в Python Списки являются одними из основных и наиболее часто используемых структур данных в Python. Список — это изменяемый и упорядоченный набор объектов, который также может хранить повторяющиеся значения. Их даже можно использовать в качестве очередей и стеков (хотя deque может быть более эффективным). Обращение списка — довольно распространенная задача, выполняемая разработчиками при написании приложений Python. В сегодняшнем кратком руководстве..

Как сделать модульное тестирование в dbt
Решите задачу тестирования конвейеров данных В последние годы мы наблюдаем огромный рост технологий и инструментов для создания стека данных. Теперь проще, чем когда-либо, построить современный конвейер данных без огромных инвестиций. Стандартный современный стек данных включает, но не ограничивается: Облачное хранилище данных — масштабируемое и распределенное облачное хранилище данных, которое позволяет преобразовывать терабайты данных с помощью SQL. BigQuery, Snowflake и Amazon..

Оптимизация SQL-запросов: 8 методов повышения производительности базы данных
Эта статья представляет собой руководство по повышению производительности приложений, управляемых базами данных, путем оптимизации их SQL-запросов. Понимая принципы оптимизации запросов, выявляя узкие места в производительности и используя эффективные методы извлечения данных, разработчики могут добиться значительного повышения производительности. В статье рассматриваются различные методы, такие как подсказки по оптимизации запросов, анализ плана выполнения и расширенные методы..

OLTP против OLAP
OLTP против OLAP Допустим, вы решили создать клон Facebook. Вы и ваш сосед по комнате работаете несколько недель, чтобы запустить приложение. Все выглядит отлично, у вас более 100 пользователей (включая вашу любовь из вводного курса биологии). Затем в один прекрасный день отключается электричество. Вы снова запускаете приложение и обнаруживаете, что все данные исчезли. Вы проводите небольшое исследование и обнаруживаете, что хранение пользовательских данных в словаре Python,..

Как я попал в Data Engineering
Как добиться успеха в инженерии данных без маршрута из учебника В мире данных мы часто слышим рассказы о успешных выпускниках со степенью в области компьютерных наук, которые получают впечатляющие результаты в технологических гигантах. Но давайте перевернем сценарий. Вот я, инженер данных, который нашел свое предназначение в медицинской технологической компании, с несколько нетрадиционным путем в этой области. Сделайте шаг назад и представьте себе это — четыре компании, три года и куча..