Публикации по теме 'data-engineering'


Отсутствие институционализированного образования подпитывает нехватку инженеров данных
Мнение Отсутствие институционализированного образования подпитывает нехватку инженеров данных Существует очень мало программ на получение степени инженера данных, что увековечивает порочный круг неаккредитованных и «неквалифицированных» кандидатов. Хроническая нехватка инженерных данных По мере того, как индустрия данных процветает, мы столкнулись с широко разрекламированной проблемой нехватки инженеров по обработке данных. По некоторым оценкам, мы находимся более 5 лет в этом..

Серия алгоритмов — Очередь
Очередь Следующая структура данных в этой серии статей — это еще одна абстрактная структура данных контейнерного типа, называемая очередью. Очереди работают по существу как реальная очередь в том смысле, что порядок извлечения работает в порядке FIFO (первым пришел — первым обслужен). Это полезная структура данных, позволяющая сделать время ожидания товаров справедливым. Обратите внимание, что среднее время ожидания остается одинаковым независимо от того, используем ли мы стек..

Качество данных с Apache NiFi
Качество данных должно быть в центре внимания каждого центра разработки данных. «Мусор на входе, мусор на выходе» - это принцип, по которому каждая команда инженеров данных должна жить и стремиться предоставлять данные высочайшего качества для целей аналитики и машинного обучения. При этом поддерживать качество данных легче сказать, чем сделать. Из-за множества источников, отправляющих данные с переменной скоростью и с переменными форматами, становится невозможным отследить, какой..

Поднимите уровень своего озера данных
Поднимите свою игру с озером данных на новый уровень с помощью этих двух улучшений архитектуры. Что такое базовое озеро данных? Озеро данных состоит из двух основных элементов: хранилища объектов и хранимых объектов. Оно может выглядеть примерно так: Даже с такой базовой настройкой ваши данные могут поддерживать все три основных варианта использования данных: 1. BI Analytics 2. API-интерфейсы с интенсивным использованием данных и 3. Алгоритмы машинного обучения . Тот..

«Расшифровка ландшафта работы по науке о данных: понимание различных ролей и обязанностей»
В последние годы наука о данных стала модным словом, и эта область испытывает огромный рост и спрос. Однако из-за огромного количества должностей и обязанностей, связанных с наукой о данных, может быть сложно понять различия между ними. В этом сообщении блога мы разберем различные роли в науке о данных и прольем свет на то, что каждая из них влечет за собой. 1. Аналитик данных Аналитики данных отвечают за сбор, обработку и выполнение исследовательского анализа наборов данных...

Самостоятельный прием данных: ключ к созданию единого, масштабируемого облачного озера данных
Предприятия все чаще используют облачные озера данных для выполнения крупномасштабных аналитических рабочих нагрузок и использования аналитических данных на основе данных для принятия более эффективных решений. Облачные озера данных обеспечивают непревзойденную эластичность и масштабируемость, позволяя компаниям сократить расходы и сократить время выхода на рынок. Первым шагом в создании озера данных на облачной платформе является прием данных, однако ему часто придается низкий..

поляры в арктике!
Введение Вы когда-нибудь имели дело с набором данных, содержащим более 10 миллионов строк? Слишком большой для разумной загрузки в память, но, возможно, слишком маленький для использования базы данных? Как вы справиться с этим? В этой статье я хочу обсудить, почему поляры могут быть оптимальным выбором для вашего рабочего процесса анализа данных. Мой набор инструментов по размеру данных ≤ 1000 строк (Excel) от 1000 до 10 млн строк (dplyr) от 10 до 50 млн строк..