Учебное пособие по сертификации ace Google Cloud для профессионального инженера по машинному обучению

Сертификация Google Cloud Professional ML

Учебное пособие по программе ACE Google Cloud Certification для профессионального инженера по машинному обучению

Я делюсь с вами своим опытом обучения для получения сертификата Google Cloud Certification on Professional ML Engineer. Вы можете использовать эту статью, чтобы создать свой собственный путь обучения и пройти сертификацию.

5 марта 2021 года я явился на онлайн-экзамен «Профессиональный инженер по машинному обучению». Хотя я работаю в этой области более 4 лет, я подумал, что было бы неплохо потратить 2 месяца на подготовку из-за моего рабочего графика и обширного содержания сертификации. После 2 месяцев подготовки и 2 часов экзамена я успешно сдал экзамен.

В этой статье я расскажу вам об обучении, которое я выбрал для этого сертификата. Содержание руководства к экзамену охватывает все необходимое. Следование руководству по экзамену и чтение документации Google должно быть достаточно, но имейте в виду, что он огромен.

Примечание. Я добавил несколько дополнительных курсов, которые помогут расширить знания о некоторых важных продуктах Google Cloud (GCP), но если у вас есть опыт работы с GCP, эти курсы можно пропустить.

Введение

В эпоху цифровой трансформации модели машинного обучения (ML) стали неотъемлемой частью. Многие компании, которые отстают в этой области, ищут квалифицированных инженеров машинного обучения для ускорения процесса трансформации.

В ноябре 2020 года Google добавила сертификат профессионального инженера по машинному обучению. Для получения этой сертификации Google рекомендует более трех лет опыта работы в отрасли, в том числе более одного года разработки и управления решениями с использованием облачных продуктов Google (GCP). Имейте в виду, что это всего лишь рекомендация, которая не является обязательной. Конечно, наличие некоторого опыта поможет, но это не должно помешать вам пройти этот сертификат.

Эта сертификация предназначена для оценки способностей тестируемых в следующих областях:

Чтобы продемонстрировать, что вы опытный специалист по ML, необходимы знания в вышеупомянутых областях. Компании также ищут инженеров машинного обучения, которые обладают знаниями во всех аспектах решений машинного обучения, и эта сертификация проверяет то же самое.

Формат и правила онлайн-экзамена

60 вопросов, 120 минут.

Регистрационный взнос на экзамен - 200 долларов США.

Контрольный список для онлайн-экзамена под наблюдением:

Убедитесь, что вы сидите в тихом и незагроможденном месте (без второго монитора, мобильных телефонов, часов, бутылок с водой, чайных или кофейных кружек).
Тестируемым не разрешается пользоваться ручкой и бумагой.
Компьютер должен иметь работающую веб-камеру и микрофон.
Перед экзаменом убедитесь, что вы установили Sentinel и настроили свой биометрический профиль.
Убедитесь, что вы сидите в тихом и незагроможденном месте (без второго монитора, мобильных телефонов, часов, бутылок с водой, чайных или кофейных кружек).
Носите с собой 2 документа, удостоверяющих личность.

Путь обучения

На этапе подготовки я находил отзывы об экзаменах только от людей, сдавших бета-экзамены. Я не был уверен, насколько изменится схема экзамена, когда она выйдет из фазы бета-тестирования. Поэтому, прежде чем перейти в режим подготовки, я начал с руководства к экзамену от Google. Я составил список тем, которые не были моими самыми сильными сторонами, и соответствующим образом спланировал свой учебный график. Я прошел рекомендованные курсы от Google и участников бета-тестирования. Также читайте темы из документации Google, которые отсутствовали в курсах.

Итак, начнем, материалы, которые должны быть включены в этот курс обучения по сертификации:

Веб-семинар - Подготовка к сертификации: сертификация по машинному обучению. Это веб-семинар по запросу и хорошая отправная точка, на которой вы получите ценные советы по экзаменам. Этот вебинар потрясающий, потому что он поможет вам понять, как решать сложные вопросы на экзамене, когда 2 из 4 вариантов кажутся правильными.
Ускоренный курс машинного обучения - Google. Я не просматривал никаких видео, только читал материалы и вопросы.
Введение в постановку задач машинного обучения - Google. Только материалы для чтения и вопросы.
Подготовка данных и разработка функций в машинном обучении - Google. Только материалы для чтения и вопросы. На моем экзамене было несколько вопросов по этой теме.
Тестирование и отладка в машинном обучении - Google. Только материалы для чтения и вопросы. Важная тема, у меня было 2 вопроса по этой теме.
Основы больших данных и машинного обучения - Coursera. Просматривал видео на 2х Скорости. Я думаю, что этот курс важен, если вы мало знаете о продуктах GCP. Этот курс заложит для вас хорошую основу в GCP.
Машинное обучение с помощью TensorFlow в специализации Google Cloud Platform - Coursera. Эта специализация является обязательной, потому что она поможет вам глубже погрузиться в искусство проектирования моделей машинного обучения, разработки функций, сравнения различных продуктов, построения моделей машинного обучения с помощью TensorFlow и Keras. Опять же, я просмотрел все видео на 2-кратной скорости, но выполнил все лабораторные работы и тесты.
Расширенное машинное обучение с помощью TensorFlow в специализации Google Cloud Platform - Coursera. Эта специализация также удивительна, поскольку охватывает сложные темы, которые весьма полезны, такие как создание моделей машинного обучения, построение временных рядов, систем рекомендаций и моделей НЛП. Эта специализация заканчивается на сквозном машинном обучении с TensorFlow. Опять же, я просмотрел все видео на 2-кратной скорости, но выполнил все лабораторные работы и тесты.
Облачные решения Google. Важно, так как это поможет лучше понять GCP и то, как разные компании используют GCP в соответствии со своими требованиями.
Архитектура для MLOps с использованием TFX, Kubeflow Pipelines и Cloud Build - Google.
Рекомендации по оптимизации производительности и затрат на машинное обучение - Google.
Создание готовых к работе конвейеров данных с помощью Dataflow: Обзор - Google.
Минимизация задержки при обслуживании прогнозов в реальном времени в машинном обучении - Google.

Все вышеупомянутые курсы, предлагаемые Coursera, были разработаны Google. Если у вас нет большого опыта работы с GCP, эти курсы вам очень помогут. Курсы на Coursera предлагают лабораторные работы по каждой теме, которые дадут вам отличную практическую практику. Имейте в виду, что эти лабораторные работы не научат вас, что происходит, если что-то не удается (именно здесь на помощь приходит опыт).

На этом этапе вы должны быть готовы.

Поскольку у меня оставалось больше месяца, я начал копать глубже и прошел несколько дополнительных курсов. Я хотел укрепить свое понимание BigQuery, Google Kubernetes Engine (GKE), пакетных и потоковых конвейеров:

От данных к аналитическим данным с помощью Google Cloud Platform - Coursera. Эта специализация хороша, если вы хотите получить более глубокое представление о BigQuery, например об использовании расширенных аналитических функций, пользовательских функций, BQML, подготовки данных, информационных панелей в Data Studio.
Начало работы с Google Kubernetes Engine - Coursera. Этот курс хорош, если вы хотите понять архитектуру GKE, kubectl, Anthos.
Инженерия данных, большие данные и машинное обучение по специализации GCP - Coursera. Эта специализация важна, если вы хотите узнать об инструментах ETL (DataProc, Dataflow, Data Fusion), предлагаемых облаком Google и облачным композитором для управления конвейерами данных.

Советы по подготовке

Итак, вот несколько советов для вас, ребята:

Сначала ПОЧЕМУ, а затем КАК - Чтобы проверить понимание экзаменуемого, на экзамене будут возникать некоторые вопросы, которые могут ввести в заблуждение. Итак, я предлагаю подумать, почему компании выбрали определенные продукты, а затем посмотреть, как они реализовали архитектурный дизайн. Возьмем пример: почему компания выберет Dataproc вместо Dataflow? Есть ли у них зависимости от Spark? Или они хотят иметь больший контроль над своим DevOps?
Если у вас нет опыта работы с GCP, создайте бесплатную учетную запись в облаке Google. Воспользуйтесь бесплатным кредитом в размере 300 долларов США и изучите продукты, предлагаемые Google. Используйте Qwiklabs для практического обучения.
Проверьте свои навыки, проектируя конвейеры машинного обучения на белой доске для таких проектов, как: приложение для прогнозирования времени простоя устройства IOT, система банковской безопасности для обнаружения мошенничества, калькулятор цен на проезд в такси, производство энергии из крышной системы из солнечных модулей и т. Д. какой тип обучения нам нужен для таких проектов (статический vs динамический)? Нам нужно прогнозирование в реальном времени или пакетное прогнозирование?

Что нужно знать перед экзаменом

Перед экзаменом вы должны знать или должны ответить на следующие вопросы:

Какова одна из распространенных причин неудач модели машинного обучения? Приложения, основанные на машинном обучении, учатся на данных во время обучения и делают прогнозы, связанные с бизнес-решениями, во время вывода. Чтобы хорошо практиковать машинное обучение, нужно понимать важность данных. Одна из распространенных причин того, что многие модели ML не работают в производственной среде, потому что данных, собранных для обучения модели ML, было недостаточно и / или существуют некоторые различия в предварительной обработке данных между этапами обучения и обслуживания.
Выявление не-ML решения - для решения любой проблемы отправной точкой не должна быть модель ML, скорее мы должны начать со сбора данных и исследования, работает ли эвристика или нет, например, если вы хотите ранжировать исполнителей в жанре музыки хип-хоп. , вы можете использовать их количество загрузок музыки или проданных копий в качестве эвристики. Здесь ML не требуется. Выявление решений, не связанных с машинным обучением, важно, потому что машинное обучение обходится дорого и требует данных. Чтобы построить модель машинного обучения, нам нужна инфраструктура для поддержки обучения и обслуживания. Строить инфраструктуру собственными силами дорого и неэффективно.
Почему облачные сервисы? Облачные сервисы стали настолько популярными, потому что мы платим за услуги в зависимости от того, как мы их используем. Вместо того, чтобы вкладывать время и деньги в создание инфраструктуры, мы можем сосредоточиться на создании моделей для проблем, требующих подхода машинного обучения.
Предварительно обученные против AutoML против пользовательских моделей - это просто, предположим, вы хотите обучить модель, которая обнаруживает красные автомобили. Создание собственных моделей для этого может быть правильным, но не эффективным. Попробуйте предварительно обученную модель Google, например Cloud Vision. Однако, если вы запустили собственный автомобиль и хотите обнаружить его в пробке, возможно, лучше выбрать AutoML Vision.
Чтобы решить любую проблему, подумайте о времени и количестве шагов. Как инженер машинного обучения вы должны найти решение, эффективное по времени и с минимальным количеством шагов. Однако имейте в виду, что нет единого решения любой проблемы, особенно когда у вас есть другие зависимости.
Подумайте об условиях ввода-вывода, ЦП и памяти при построении архитектуры машинного обучения. Если ваша модель требует синтаксического анализа большого количества изображений, в этом случае использование TFRecordDataset будет хорошим вариантом. Что-то вроде обработки данных в Dataflow и хранения TFRecordDataset в Google Storage
Вы должны знать, как скорость обучения и размер пакета влияют на обучение модели. Что произойдет, если скорость обучения или размер пакета слишком мал или велик? Что такое скорость обучения Златовласки?
Метрики оценки: должны быть у вас под рукой.
Работа с набором данных о дисбалансе: с набором данных о дисбалансе модели, как правило, отдают предпочтение классу большинства. Существует несколько методов устранения дисбаланса набора данных с использованием недостаточной выборки, избыточной выборки, добавления начального смещения, добавления весов классов или генерации синтетических данных. Изолированный лес также популярен для задач машинного обучения, связанных с набором данных дисбаланса.
Передача обучения и расширение данных: когда следует пойти по этому пути? Возможный ответ: когда у вас нехватка данных.
Разработка функций: TensorFlow предлагает различные методы, такие как встраивание, биннинг, хеширование, перекрестие функций. Зачем нам встраивание? Что происходит, когда распределение столбцов числовых характеристик является бимодальным? Если перекрестие функций может привести к переоснащению, тогда зачем мы его используем?
Объяснимый ИИ: важные методы, которые могут помочь понять глубокие нейронные сети, такие как Integrated gradient, xRAI и Sampled shapely.
Поймите возможные искажения в данных: в этом вам поможет инструмент «Что, если».
Как мы можем одновременно повысить производительность модели и оптимизировать ее стоимость?
Как мы можем защитить наши данные в облаке? Политика IAM
Создание CI / CD и CT в машинном обучении с помощью Kubeflow ML
Стратегии распределенного обучения с использованием TensorFlow
Стратегии настройки гиперпараметров: GridSearchCV, RandomizedSearchCV и байесовский. Платформа AI использует байесовскую оптимизацию.
TensorFlow Extended или TFX. Вы должны знать компоненты и то, как построить из них конвейер.
Варианты обслуживания облачной модели Google

Выводы

Не думайте, что эта сертификация только проверяет ваше понимание продуктов Google. Нет, скорее, это также проверка вашего понимания в проектировании архитектуры модели, проектировании конвейера данных, проектировании данных, проектировании приложений и интерпретации показателей оценки. Следовательно, наличие этой сертификации означает, что у вас есть возможность создать эффективное решение машинного обучения.

Если вы используете любого другого облачного провайдера AWS или Azure, я все равно считаю эту сертификацию ценной, потому что здесь меняются только базовые продукты, но идея, лежащая в основе решения ML, должна оставаться той же.

Да пребудет с вами сила

Желаю удачи и молюсь за успех. Если у вас есть вопросы, не стесняйтесь спросить.

Я новичок в Medium, любые предложения относительно моего стиля письма или того, что я могу сделать лучше, приветствуются.

Спасибо за прочтение!

Ваше здоровье

Рахул