Databricks превратились в любимую платформу для многих инженеров данных, специалистов по данным и экспертов по машинному обучению. Он сочетает в себе данные, аналитику и искусственный интеллект. Это мультиоблачное решение, и теперь вы также можете использовать его в GCP.

Эта статья проведет вас через основные шаги по эффективному использованию Databricks в Google Cloud.

1. Получите правильное основание — от подписки до создания пользователя

Для начала позвольте мне связать с пошаговым учебным пособием, в котором рассказывается обо всем, что касается видео, от создания подписки, предварительных условий, создания рабочей области Databricks, добавления пользователей в рабочую область и запуска вашего первого задания.

Убедитесь, что поняли это правильно. Даже если вы похожи на меня, т.е. кто-то, кто не читает инструкции к мебели ИКЕА, обязательно сделайте это правильно (это избавит вас от проблем позже, если вы, например, с самого начала правильно установите квоты)

Также проверьте официальную документацию.

2. Персонифицированный вид

Все ваши ресурсы Databricks оцениваются с помощью боковой панели. Содержимое боковой панели зависит от выбранного персонажа: например. Наука о данных и инженерия или Машинное обучение.

По умолчанию боковая панель отображается в свернутом состоянии, и видны только значки. Наведите курсор на боковую панель, чтобы развернуть ее до полного представления.

3. Изучите записную книжку Quickstart

Хорошо, вы прошли все этапы настройки без проблем, но вы не опытный программист и не знаете, как писать код в блокноте? Не беспокойтесь, не каждый является инженером данных или специалистом по данным.

Из каждой рабочей области GCP вы можете начать изучение блокнота для быстрого старта. Записные книжки для быстрого старта — отличный способ изучить и запустить короткие фрагменты понятного кода. Для начинающих специалистов по данным это отличный способ научиться реализовывать основные функции.

4. Галерея ноутбуков

Галерея записных книжек Databricks демонстрирует некоторые возможности записных книжек, которые можно легко импортировать в вашу собственную среду Databricks.

5. Ускорители решений

Ускорители решений — это записные книжки Databricks, предназначенные для решения распространенных сценариев использования с высокой отдачей. Они разработаны, чтобы помочь клиентам Databricks перейти от идеи к PoC менее чем за 2 недели. Ознакомьтесь с ними и обсудите их с вашей командой по архитектуре решения или посмотрите краткое введение на YouTube.

6. Технические ресурсы, которые вы должны знать

Есть много других технических статей, которые помогут вам быстро освоить Databricks в Google Cloud:

Похлопайте этой статье, если вам понравилось ее читать. Чтобы узнать больше об облачной науке о данных, инженерии данных и AI/ML, подпишитесь на меня в Twitter (или LinkedIn).

Большое спасибо Silviu Tofan за поддержку этой статьи и Databricks на GCP.
Спасибо Джону Тайсону на unsplash за фото, использованное в этой статье. Отличный снимок!