Публикации по теме 'data-engineering'
Выпуск RAPIDS 23.06 — «Ускорение науки о данных»
Релиз RAPIDS 23.06 уже доступен! В этом выпуске добавлен ряд функций и улучшений, которые нам очень нравятся, в том числе:
Основные улучшения cuSpatial, включая поддержку DE-9IM, пакеты pip, улучшения производительности и улучшенные примеры блокнотов. Интеграция RAFT с Implicit (совместная фильтрация) и FAISS Meta (поиск сходства), а также улучшения в pylibraft Улучшения производительности и использования памяти в cuGraph Поддержка часового пояса и многочисленные улучшения..
Как я сдал сертификационный экзамен инженера по данным Google Cloud Professional
Без рекомендованного 3-летнего практического опыта
* Примечание. Эта статья посвящена сертификационному экзамену Google Cloud Professional Data Engineer Certification до 29 марта 2019 г. После этой даты были внесены некоторые изменения. Я включил их в раздел Дополнительно *
Итак, вы хотите получить новую толстовку с капюшоном, похожую на ту, что у меня на обложке?
Или вы хотели получить Сертификат специалиста по обработке данных Google Cloud Professional и не знаете, как..
Как более эффективно реверсировать списки Python
Эффективное обращение списков в Python
Списки являются одними из основных и наиболее часто используемых структур данных в Python. Список — это изменяемый и упорядоченный набор объектов, который также может хранить повторяющиеся значения. Их даже можно использовать в качестве очередей и стеков (хотя deque может быть более эффективным).
Обращение списка — довольно распространенная задача, выполняемая разработчиками при написании приложений Python. В сегодняшнем кратком руководстве..
Как сделать модульное тестирование в dbt
Решите задачу тестирования конвейеров данных
В последние годы мы наблюдаем огромный рост технологий и инструментов для создания стека данных. Теперь проще, чем когда-либо, построить современный конвейер данных без огромных инвестиций. Стандартный современный стек данных включает, но не ограничивается:
Облачное хранилище данных — масштабируемое и распределенное облачное хранилище данных, которое позволяет преобразовывать терабайты данных с помощью SQL. BigQuery, Snowflake и Amazon..
Оптимизация SQL-запросов: 8 методов повышения производительности базы данных
Эта статья представляет собой руководство по повышению производительности приложений, управляемых базами данных, путем оптимизации их SQL-запросов. Понимая принципы оптимизации запросов, выявляя узкие места в производительности и используя эффективные методы извлечения данных, разработчики могут добиться значительного повышения производительности.
В статье рассматриваются различные методы, такие как подсказки по оптимизации запросов, анализ плана выполнения и расширенные методы..
OLTP против OLAP
OLTP против OLAP
Допустим, вы решили создать клон Facebook. Вы и ваш сосед по комнате работаете несколько недель, чтобы запустить приложение. Все выглядит отлично, у вас более 100 пользователей (включая вашу любовь из вводного курса биологии). Затем в один прекрасный день отключается электричество. Вы снова запускаете приложение и обнаруживаете, что все данные исчезли. Вы проводите небольшое исследование и обнаруживаете, что хранение пользовательских данных в словаре Python,..
Как я попал в Data Engineering
Как добиться успеха в инженерии данных без маршрута из учебника
В мире данных мы часто слышим рассказы о успешных выпускниках со степенью в области компьютерных наук, которые получают впечатляющие результаты в технологических гигантах. Но давайте перевернем сценарий. Вот я, инженер данных, который нашел свое предназначение в медицинской технологической компании, с несколько нетрадиционным путем в этой области.
Сделайте шаг назад и представьте себе это — четыре компании, три года и куча..