Публикации по теме 'data-engineering'


Поиск правильного пути для инженерии данных
Мы посвятили значительное количество времени изучению возможностей Azure по обработке данных и созданию надежной инфраструктуры данных, которая обрабатывает необработанное видео, очищенное видео и соответствующий контекст, необходимый для сопоставления данных и подачи их в модель ИИ. Поскольку каждый дизайн уникален и не может быть продублирован, этот процесс включал в себя множество экспериментов и усовершенствований. Опираясь на наш опыт, мы собрали ряд ценных идей. Учетная запись..

Инжиниринг данных
Инжиниринг данных охватывает две области: создание конвейеров, которые транспортируют или преобразовывают данные, и программную инженерию, окружающую эти данные. Инженер данных сосредоточен на передовых методах разработки программного обеспечения, связанных с перемещением и транспортировкой данных. Данные: пакетные, потоковые и события При создании облачных приложений при обработке данных необходимо учитывать три парадигмы: Пакетное задание . Пакетное задание — это процесс или..

Почему сейчас популярна Data Engineering?
Инженерия данных Почему сейчас популярна Data Engineering? Подробное описание тенденций в области инженерии данных и их важности. Data Engineering - самая« настоящая работа в 21 веке». Если вы следите за индустрией данных и с энтузиазмом относитесь к этой области, возможно, вы видели или слышали термин Data Engineering или сексуальное название Data Engineer , появляющиеся повсюду. Если вам интересно, почему, и вы хотите углубиться в эту тему, вы попали в нужное место! Мои..

Тема:5 кодировок
Кодирование — важная часть разработки функций, но что это такое? Кодирование в разработке признаков относится к процессу преобразования категориальных переменных (то есть переменных, которые могут принимать ограниченное количество значений) в числовые переменные, которые можно использовать в моделях машинного обучения. Это сделано потому, что большинство моделей машинного обучения предназначены для работы с числовыми данными и не могут напрямую обрабатывать категориальные данные...

Переменные PySpark Broadcast и аккумулятор
Всем привет! Сегодня давайте рассмотрим широковещательные и накопительные переменные в Pyspark…!!! Переменные трансляции PySpark 🢂 Широковещательные переменные — это общие переменные только для чтения, которые кэшируются и доступны на всех узлах в кластере для доступа или использования задачами. 🢂 Позвольте мне объяснить на примере, когда использовать широковещательные переменные. Предположим, вы получаете двухбуквенный код штата в файле и хотите преобразовать его в полное..

Как Opendoor обрабатывает более 500 видео каждый день
Building Enricher: инструмент на основе компьютерного зрения Шашват Шривастава, старший инженер-программист Если вы когда-либо покупали или продавали дом раньше, вы знаете, насколько это сложно. Традиционный процесс может быть сложным из-за десятков шагов, множества посредников и месяцев неопределенности. На бэкэнде это может быть столь же сложно: транзакция в доме требует большого объема операций. Тем не менее, Opendoor разработала инструменты и технологии, чтобы уменьшить эту..

Аналитика данных Google :: Проект Capstone. ……….Велосипедист
Аналитика данных Google :: Проект Capstone. ……….Велосипедист ЭКЕНЕ ОХАНУСИ .Б Как младший аналитик данных, который в настоящее время находится на рынке труда в поисках прекрасных возможностей для развития своей карьеры и навыков, я решил поработать над этим набором данных о велосипедистах и ​​воспользовался принципом «спрашивайте, готовьте, обрабатывайте, анализируйте, делитесь и действуйте». подход к выполнению задачи. Ладно, приступим к делу Вопросы заинтересованных сторон...