Публикации по теме 'data-engineering'


Смешение привычного с необычным: Google Colab открывает безграничные возможности
Смешение привычного с необычным: Google Colab открывает безграничные возможности Введение: В быстро меняющемся мире технологий программирование больше не ограничивается настольными компьютерами или локальными средами. Облачные вычисления открыли новые возможности для разработчиков и специалистов по обработке данных, позволяя им использовать онлайн-платформы, обеспечивающие удобство, доступность и возможности совместной работы. Среди этих платформ Google Colab выделяется как..

SFTP и обработка XML-файлов в облачной платформе Google с помощью Python
Руководство о том, как использовать Python для извлечения XML-файлов с SFTP-сервера, их резервного копирования в Google Cloud Storage и их обработки — и все это без запуска виртуальной машины. Введение — Постановка проблемы Часто, когда организации сотрудничают с партнерами в проектах, управляемых данными, для передачи файлов и информации может потребоваться множество технических решений. Иногда партнер организации может размещать нужные файлы данных на собственном сервере. Нередко..

Применение линейной регрессии к набору данных о погоде
В этой статье мы обсудим, как применять шаги предварительной обработки, уменьшение размеров и построение линейной модели для реального набора данных. Набор данных был выбран из Kaggle , и он содержит реальные исторические данные о погоде с ежечасной / ежедневной сводкой для области Сегед, Венгрия с 2006 по 2016 год. Погода в Сегеде в 2006-2016 гг. Ежечасная / ежедневная сводка с температурой, давлением, скоростью ветра и др. www.kaggle.com..

6 SQL-функций BigQuery, которые должен знать каждый пользователь
Проверьте, есть ли они в вашей базе данных В моей предыдущей статье я обсуждал 4 сочетания клавиш BigQuery SQL, которые могут упростить ваши запросы . С тех пор я обнаружил еще 6 полезных функций SQL, о которых мне хотелось бы знать раньше и которыми я хотел бы поделиться сегодня. 1. СОЗДАТЬ МАССИВ Функция GENERATE_ARRAY позволяет создать массив с начальным и конечным значением, увеличенным на шаг. Это полезно, если вы хотите сгенерировать серию чисел с определенной..

Интерпретируемость моделей машинного обучения
В процессе принятия решений с помощью машинного обучения часто говорят, что более простые модели легко объяснить и понять. Но мы знаем, что в большинстве случаев более простые модели не работают хорошо, и для достижения большей производительности и точности возникает необходимость полагаться на сложные модели, которые снова рассматриваются как черный ящик, когда дело доходит до объяснения бизнес-пользователям. или лица, принимающие решения. Так что, как правило, существует компромисс..

Фармацевтика прогнозирует продажи с помощью машинного обучения
Понимание бизнеса и цели Компания под названием Rossman Pharmaceuticals хочет прогнозировать продажи на 6 недель вперед для всех своих магазинов в разных городах. Цель этого проекта — использовать набор данных, собранный из всех их магазинов, и обслуживать комплексный продукт, способный прогнозировать продажи, чтобы компания могла поставлять соответствующие товары в любой момент времени. Исследование данных Данные , которые были предоставлены 3 разными файлами csv. Первым набором..

Как установить dbt (инструмент для построения данных)
Установка инструмента построения данных для вашего конкретного хранилища данных Инструмент построения данных (dbt), несомненно, является одним из самых мощных инструментов в современных стеках данных, поскольку он позволяет командам и организациям управлять моделями данных и преобразовывать их масштабируемым, эффективным и действенным способом. dbt обработает все взаимозависимости модели данных и предоставит вам все необходимое для выполнения тестов над вашими данными и улучшения..