Знакомство с жизненным циклом данных на платформе Google Cloud для начинающих

Облачные технологии сделали доступ к мощной вычислительной инфраструктуре возможным для всех. От крупных корпораций до стартапов, состоящих из одного человека, все переносят свои высокопроизводительные рабочие нагрузки, такие как аналитика данных и машинное обучение, в облако. Естественно, поставщики общедоступных облаков предлагают конкретные решения проблем инженерии данных, и Google находится на переднем крае со своим облачным предложением, Google Cloud Platform (GCP) и своей философией полностью управляемых решений. Инструменты, доступные на Google Cloud Platform для непрерывной обработки данных, можно в целом разделить на 4 категории жизненного цикла данных; принимать, хранить, обрабатывать и анализировать, исследовать и визуализировать.

Данные могут быть получены из нескольких источников. Пользовательские данные могут быть захвачены из приложений, размещенных в вычислительных сервисах, таких как App Engine, Compute Engine и т. Д., Машинные данные могут быть захвачены из Stackdriver Logging, тогда как данные, захваченные с устройств IoT, могут быть введены с использованием очереди сообщений без сервера, такой как Cloud Pub / Sub. GCP также облегчает решение проблем, связанных с миграцией массовых объемов данных с других облачных платформ, таких как AWS, а также из локальных систем, предоставляя такие услуги, как Cloud Transfer Service и Transfer Appliance, предоставляя пользователям легкий доступ к безопасному получению данных в облаке.

После приема данных, в зависимости от варианта использования, данные могут быть сохранены в соответствующем хранилище. Первичная фильтрация может выполняться на основе таких факторов, как структурированный или неструктурированный, SQL или No-SQL, а также реляционный или нереляционный. Варианты хранения в GCP могут быть проприетарными, например BigQuery или Cloud Spanner, или основанными на решениях с открытым исходным кодом, таких как Cloud SQL. Bigtable - это хорошо масштабируемая нереляционная база данных без SQL, которая, хотя и является проприетарной установкой, но предлагает API Apache HBase. Другие формы данных, такие как машинно-сгенерированные данные, могут размещаться на Stackdriver, потоковые данные могут обслуживаться через Cloud Pub / Sub, тогда как пакетные данные могут храниться в облачном хранилище.

После того, как данные сохранены, GCP предоставляет набор инструментов для обслуживания почти всех вариантов использования, связанных с их обработкой и анализом для получения полезных идей. Задания ETL, в зависимости от выбранного варианта, могут выполняться с помощью таких инструментов, как Cloud Dataproc, который представляет собой высокодоступный сервис автомасштабирования для экосистемы Hadoop, или Cloud Dataflow для недопустимо параллельных рабочих нагрузок с использованием инфраструктуры Apache Beam. GCP также предоставляет услуги, специально предназначенные для таких задач, как очистка данных, которые выполняются через Cloud Dataprep. Cloud Dataprep может создавать конвейеры Cloud Dataflow, просто используя свой интуитивно понятный пользовательский интерфейс. Полная оркестровка рабочего процесса через Apache Airflow возможна через Cloud Composer, который позволяет конечному пользователю создавать прямые ациклические графики для планирования рабочих процессов. Аналогичное решение также доступно в виде Cloud Data Fusion, которое требует написания нулевых строк кода.

Что касается машинного обучения, GCP предлагает 3 варианта на выбор, которые могут быть реализованы в зависимости от уровня настройки, необходимой конечному пользователю. Cloud AI Platform - это интегрированная платформа, которая позволяет пользователю обучать, проверять, оценивать и прогнозировать пользовательскую модель, не беспокоясь о базовой инфраструктуре. Он поддерживает несколько фреймворков машинного обучения, таких как sci-kit learn, Keras, Tensorflow и PyTorch. Он также поддерживает развертывание конвейеров Kubeflow. Cloud AutoML использует трансферное обучение, чтобы обучать пользователей данным, чтобы снова предоставлять полу-кастомные модели, не беспокоясь о какой-либо инфраструктуре. Наконец, GCP позволяет пользователям добавлять интеллект в свои приложения с помощью предварительно обученных моделей машинного обучения, которые обслуживаются через API.

GCP также предлагает размещение частных ноутбуков Jupyter в облаке в форме Cloud Datalab. Cloud Datalab запускает экземпляр Compute Engine в фоновом режиме, чтобы предоставить пользователям необходимую вычислительную мощность. В конце концов, данные можно экспортировать в Google Таблицы или Cloud Data Studio для исследования или визуализации.

— — — — — — — — — — — — — — — — — — — — — — — — — —

Эта статья в значительной степени вдохновлена https://cloud.google.com/solutions/data-lifecycle-cloud-platform

Цель состоит в том, чтобы более подробно описать каждый из этапов, а также охватить определенные любимые продукты, такие как BigQuery и Cloud Dataflow.

Знакомство с жизненным циклом данных на платформе Google Cloud для начинающих

Вопросы по теме