Ускорьте подготовку данных для конвейеров машинного обучения на AWS

«С сервисами AWS жизнь проще»

21 апреля 2021 года Data Science Milan организовал webMeetup с участием Франческо Марелли, чтобы обсудить конвейеры обработки данных с помощью AWS.

«Ускорьте подготовку данных для конвейеров машинного обучения на AWS», написано Франческо Марелли, старшим архитектором решений в AWS.

Чтобы использовать огромные объемы данных, компании перемещают все свои данные из различных хранилищ в одно место, называемое озером данных, для выполнения аналитики и машинного обучения. Франческо показал архитектуру дома у озера на AWS. Идея, лежащая в основе этой архитектуры, состоит в том, чтобы построить центральное хранилище данных, на котором будут использоваться различные аналитические службы, от хранилища данных до службы машинного обучения. Это позволяет создавать масштабируемые озера данных, хранилища данных, анализировать данные с помощью специализированных служб данных и обеспечивать унифицированное управление и легкое перемещение данных.

Lake Formation собирает и каталогизирует данные из баз данных и хранилища объектов, а затем перемещает данные в озеро данных Amazon S3. AWS Glue предоставляет все возможности, необходимые для интеграции данных, а затем несколько уровней, чтобы предложить самый широкий и глубокий портфель специализированных служб данных, включая Amazon Athena для интерактивных запросов, Amazon EMR для обработки больших данных, Amazon Elasticsearch Service для журналов и аналитики поиска. , Amazon Kinesis для аналитики в реальном времени, Amazon Redshift в качестве хранилища данных и Amazon SageMaker для службы машинного обучения.

Франческо продемонстрировал пример использования AWS Glue, сервиса бессерверной интеграции данных для сложных рабочих нагрузок, соединяющего сотни источников данных и обрабатывающего данные в реальном времени. В конце концов, все это упрощает обнаружение, подготовку и объединение данных для аналитики, машинного обучения и разработки приложений.

AWS Glue работает в бессерверной среде. Нет инфраструктуры, которую нужно поддерживать, она выделяет необходимые вычислительные мощности, выполняет задания по интеграции данных и дешевле, чем другие варианты интеграции облачных данных. AWS Glue автоматизирует большую часть усилий, необходимых для интеграции данных, а также сканирует ваши источники данных, определяет форматы данных и предлагает схемы для хранения ваших данных. Он подготавливает необработанные данные для машинного обучения. Различные группы в вашей организации могут использовать AWS Glue для совместной работы над задачами интеграции данных, сокращая время, необходимое для анализа ваших данных.

До 80% времени тратится на задачи, связанные с подготовкой данных: извлечение и загрузка, очистка и нормализация, организация подготовки данных в рабочих процессах. AWS Glue DataBrew - это инструмент визуальной подготовки данных, который позволяет пользователям очищать и нормализовать данные без написания кода. Это помогает сократить время, необходимое для подготовки данных для аналитики и машинного обучения (ML). Вы можете выбрать из более чем 250 готовых преобразований для автоматизации задач подготовки данных, таких как фильтрация аномалий, преобразование данных в стандартные форматы и исправление недопустимых значений. Таким образом, бизнес-аналитикам, специалистам по обработке данных и инженерам данных будет проще сотрудничать, чтобы получать информацию из необработанных данных, а с интуитивно понятным интерфейсом DataBrew вы можете в интерактивном режиме обнаруживать, визуализировать, очищать и преобразовывать необработанные данные.

Другой сервис для обработки данных называется AWS Data Wrangler, который расширяет возможности библиотеки Pandas до сервисов AWS, соединяющих данные, поступающие из разных источников.

Последним показанным сервисом был SageMaker Data Wrangler, самый быстрый и простой способ подготовить данные для машинного обучения. С помощью SageMaker Data Wrangler вы можете упростить процесс подготовки данных и проектирования функций, а также выполнить каждый этап рабочего процесса подготовки данных, включая выбор, очистку, исследование и визуализацию данных, с помощью единого визуального интерфейса. SageMaker Data Wrangler содержит множество встроенных преобразователей данных для преобразования необработанных данных в функции для машинного обучения. Вы можете быстро обнаруживать выбросы или экстремальные значения в наборе данных, выявлять несоответствия и потенциальные проблемы при подготовке данных, которые могут снизить точность модели. SageMaker Data Wrangler управляет всеми этапами рабочего процесса подготовки данных через единый визуальный интерфейс. После подготовки данных вы можете создавать полностью автоматизированные рабочие процессы машинного обучения с помощью Amazon SageMaker Pipelines и сохранять их в магазине функций Amazon SageMaker, чтобы делиться функциями с вашей командой и другими людьми, чтобы повторно использовать их для собственных моделей и анализа.

Ссылки

Используйте всю мощь своих данных с помощью AWS Analytics

Запись и слайды:

"видео"

Слайды

По сценарию Клаудио Дж. Джанкатерино

Ускорьте подготовку данных для конвейеров машинного обучения на AWS

Вопросы по теме