Публикации по теме 'data-engineering'
Поиск правильного пути для инженерии данных
Мы посвятили значительное количество времени изучению возможностей Azure по обработке данных и созданию надежной инфраструктуры данных, которая обрабатывает необработанное видео, очищенное видео и соответствующий контекст, необходимый для сопоставления данных и подачи их в модель ИИ. Поскольку каждый дизайн уникален и не может быть продублирован, этот процесс включал в себя множество экспериментов и усовершенствований. Опираясь на наш опыт, мы собрали ряд ценных идей.
Учетная запись..
Инжиниринг данных
Инжиниринг данных охватывает две области: создание конвейеров, которые транспортируют или преобразовывают данные, и программную инженерию, окружающую эти данные. Инженер данных сосредоточен на передовых методах разработки программного обеспечения, связанных с перемещением и транспортировкой данных.
Данные: пакетные, потоковые и события
При создании облачных приложений при обработке данных необходимо учитывать три парадигмы:
Пакетное задание . Пакетное задание — это процесс или..
Почему сейчас популярна Data Engineering?
Инженерия данных
Почему сейчас популярна Data Engineering?
Подробное описание тенденций в области инженерии данных и их важности.
Data Engineering - самая« настоящая работа в 21 веке». Если вы следите за индустрией данных и с энтузиазмом относитесь к этой области, возможно, вы видели или слышали термин Data Engineering или сексуальное название Data Engineer , появляющиеся повсюду.
Если вам интересно, почему, и вы хотите углубиться в эту тему, вы попали в нужное место!
Мои..
Тема:5 кодировок
Кодирование — важная часть разработки функций, но что это такое?
Кодирование в разработке признаков относится к процессу преобразования категориальных переменных (то есть переменных, которые могут принимать ограниченное количество значений) в числовые переменные, которые можно использовать в моделях машинного обучения. Это сделано потому, что большинство моделей машинного обучения предназначены для работы с числовыми данными и не могут напрямую обрабатывать категориальные данные...
Переменные PySpark Broadcast и аккумулятор
Всем привет! Сегодня давайте рассмотрим широковещательные и накопительные переменные в Pyspark…!!!
Переменные трансляции PySpark
🢂 Широковещательные переменные — это общие переменные только для чтения, которые кэшируются и доступны на всех узлах в кластере для доступа или использования задачами.
🢂 Позвольте мне объяснить на примере, когда использовать широковещательные переменные. Предположим, вы получаете двухбуквенный код штата в файле и хотите преобразовать его в полное..
Как Opendoor обрабатывает более 500 видео каждый день
Building Enricher: инструмент на основе компьютерного зрения
Шашват Шривастава, старший инженер-программист
Если вы когда-либо покупали или продавали дом раньше, вы знаете, насколько это сложно. Традиционный процесс может быть сложным из-за десятков шагов, множества посредников и месяцев неопределенности. На бэкэнде это может быть столь же сложно: транзакция в доме требует большого объема операций. Тем не менее, Opendoor разработала инструменты и технологии, чтобы уменьшить эту..
Аналитика данных Google :: Проект Capstone. ……….Велосипедист
Аналитика данных Google :: Проект Capstone. ……….Велосипедист
ЭКЕНЕ ОХАНУСИ .Б
Как младший аналитик данных, который в настоящее время находится на рынке труда в поисках прекрасных возможностей для развития своей карьеры и навыков, я решил поработать над этим набором данных о велосипедистах и воспользовался принципом «спрашивайте, готовьте, обрабатывайте, анализируйте, делитесь и действуйте». подход к выполнению задачи. Ладно, приступим к делу
Вопросы заинтересованных сторон...