Публикации по теме 'data-engineering'
Контрольный список для окончательного интервьюирования данных
Нервничаете перед собеседованием по Data Science / Data Engineering? Начало здесь.
Наука о данных, инженерия данных, бизнес-аналитика, анализ данных и другие связанные позиции находятся на пересечении кодирования, баз данных, статистики и бизнеса / продукта. Такое сочетание предметов делает карьеру увлекательной и сложной. Интервью также увлекательны и интересны. :)
Когда я готовился к интервью с данными, я заметил, что не было ни одного «святого Грааля». Я искал в Google,..
Большой запрос Google: «Ресурсы превышены во время выполнения запроса» 🤦♂️
«Ресурсы превышены во время выполнения запроса» - это статья, в которой обсуждаются проблемы с ограничением памяти, с которыми сталкивается программное обеспечение Google BigQuery, а также способы предотвращения и решения таких проблем.
Эта статья изначально опубликована в моем блоге list.to 5 августа 2019 г.
Предложение Google BigQuery - действительно мощный инструмент для анализа огромных объемов данных в диапазоне менее нескольких секунд, и он разработан для анализа данных в..
После глубокого обучения: 4 месяца специалиста по обработке данных в Format
У каждого есть план, пока он не получит удар по лицу.
- Майк Тайсон
Начало 2017 г.
Мой карьерный удар в лицо был больше похож на повторяющиеся удары по корпусу, которые привели меня сюда, мой итог 2017 года.
Если вы отслеживали, примерно 8 месяцев назад, после тех повторяющихся ударов по телу, которые говорили мне, что я не на той карьерной лестнице, которую я любил, я уволился с работы и начал свой самостоятельный темп Учебный график машинного и глубокого обучения . В конце..
Как выбрать метод разделения данных
Плюсы и минусы различных методов разделения данных и их причины.
Разделение имеющихся данных - важная задача для эффективного обучения и оценки ваших моделей. Здесь я обсуждаю различные методы разделения данных в scikit-learn, выбор конкретного метода и некоторые распространенные ошибки.
Эта статья содержит простые в использовании блоки кода, которые можно использовать, и краткие сводки для справки. ** Не стесняйтесь добавить эту статью в закладки для дальнейшего использования. **..
Помимо сбора больших данных: создание ценности на основе разработки функций
Помимо сбора больших данных: создание ценности за счет разработки функций
Прошли те времена, когда сбора и систематизации огромных массивов данных было достаточно для создания ценности для организаций. Финансовые учреждения, в частности, в течение многих лет собирают значительные объемы данных, но не могут по-настоящему использовать этот актив таким образом, чтобы приносить пользу их организациям и клиентам.
Пейман Махфи, технический директор, Credit Sesame
Некоторые..
MVP Apache Airflow: полное руководство по базовой производственной установке с использованием LocalExecutor
Резюме
В первом посте нашей серии мы немного узнали о Apache Airflow и о том, как он может помочь нам в создании не только Data Engineering и ETL конвейеры, но также и другие типы соответствующих рабочих процессов в рамках расширенной аналитики, такие как рабочие нагрузки MLOps .
Мы кратко рассмотрели некоторые из его строительных блоков, а именно Датчики , Операторы , Перехватчики и Исполнители . Эти компоненты обеспечивают базовую основу для работы с Apache Airflow...
Инженерия данных: пример выбора функции с набором данных Iris
Введение
Что касается лучшего соотношения между специалистом по обработке данных и специалистом по анализу данных, очень популярно соотношение 8: 2. Конечно, не существует фиксированного «наилучшего» соотношения, все зависит от настроек компании, доступности разработчиков и т. Д. Но примерно исходя из этого соотношения, мы можем увидеть, что рабочая нагрузка распределяется на эти 2 категории: инженерия данных и исследование алгоритмов машинного обучения. В действительности, более..