Публикации по теме 'data-engineering'


Контрольный список для окончательного интервьюирования данных
Нервничаете перед собеседованием по Data Science / Data Engineering? Начало здесь. Наука о данных, инженерия данных, бизнес-аналитика, анализ данных и другие связанные позиции находятся на пересечении кодирования, баз данных, статистики и бизнеса / продукта. Такое сочетание предметов делает карьеру увлекательной и сложной. Интервью также увлекательны и интересны. :) Когда я готовился к интервью с данными, я заметил, что не было ни одного «святого Грааля». Я искал в Google,..

Большой запрос Google: «Ресурсы превышены во время выполнения запроса» 🤦‍♂️
«Ресурсы превышены во время выполнения запроса» - это статья, в которой обсуждаются проблемы с ограничением памяти, с которыми сталкивается программное обеспечение Google BigQuery, а также способы предотвращения и решения таких проблем. Эта статья изначально опубликована в моем блоге list.to 5 августа 2019 г. Предложение Google BigQuery - действительно мощный инструмент для анализа огромных объемов данных в диапазоне менее нескольких секунд, и он разработан для анализа данных в..

После глубокого обучения: 4 месяца специалиста по обработке данных в Format
У каждого есть план, пока он не получит удар по лицу. - Майк Тайсон Начало 2017 г. Мой карьерный удар в лицо был больше похож на повторяющиеся удары по корпусу, которые привели меня сюда, мой итог 2017 года. Если вы отслеживали, примерно 8 месяцев назад, после тех повторяющихся ударов по телу, которые говорили мне, что я не на той карьерной лестнице, которую я любил, я уволился с работы и начал свой самостоятельный темп Учебный график машинного и глубокого обучения . В конце..

Как выбрать метод разделения данных
Плюсы и минусы различных методов разделения данных и их причины. Разделение имеющихся данных - важная задача для эффективного обучения и оценки ваших моделей. Здесь я обсуждаю различные методы разделения данных в scikit-learn, выбор конкретного метода и некоторые распространенные ошибки. Эта статья содержит простые в использовании блоки кода, которые можно использовать, и краткие сводки для справки. ** Не стесняйтесь добавить эту статью в закладки для дальнейшего использования. **..

Помимо сбора больших данных: создание ценности на основе разработки функций
Помимо сбора больших данных: создание ценности за счет разработки функций Прошли те времена, когда сбора и систематизации огромных массивов данных было достаточно для создания ценности для организаций. Финансовые учреждения, в частности, в течение многих лет собирают значительные объемы данных, но не могут по-настоящему использовать этот актив таким образом, чтобы приносить пользу их организациям и клиентам. Пейман Махфи, технический директор, Credit Sesame Некоторые..

MVP Apache Airflow: полное руководство по базовой производственной установке с использованием LocalExecutor
Резюме В первом посте нашей серии мы немного узнали о Apache Airflow и о том, как он может помочь нам в создании не только Data Engineering и ETL конвейеры, но также и другие типы соответствующих рабочих процессов в рамках расширенной аналитики, такие как рабочие нагрузки MLOps . Мы кратко рассмотрели некоторые из его строительных блоков, а именно Датчики , Операторы , Перехватчики и Исполнители . Эти компоненты обеспечивают базовую основу для работы с Apache Airflow...

Инженерия данных: пример выбора функции с набором данных Iris
Введение Что касается лучшего соотношения между специалистом по обработке данных и специалистом по анализу данных, очень популярно соотношение 8: 2. Конечно, не существует фиксированного «наилучшего» соотношения, все зависит от настроек компании, доступности разработчиков и т. Д. Но примерно исходя из этого соотношения, мы можем увидеть, что рабочая нагрузка распределяется на эти 2 категории: инженерия данных и исследование алгоритмов машинного обучения. В действительности, более..