Публикации по тегам aws-glue

Публикации по теме 'aws-glue'

Каталог AWS Glue с разделами, не относящимися к Hive

Как включить Glue Crawlers для добавления разделов, отличных от Hive, в предопределенные таблицы Glue Catalog с помощью Terraform Цель С такими входными данными: s3://[Name]/2021/09/01/16/jsonFile.gz Добейтесь этого с помощью гусеничного клея: Задний план Недавно я начал проект, в котором производственные данные Firehose уже переносились в S3 отдельной командой разработчиков ( читай: их нельзя изменить ) в следующем формате: s3://[Name]/2021/09/01/16/jsonFile.gz..

Запуск AWS Glue Pythonshell

AWS — это сервис, который делает много вещей, связанных с ETL. Одна его часть — это задания, которые позволяют вам запускать ваш код. Здесь я покажу вам, как запустить простейшую работу, написанную на Python. Цель Я стремлюсь загрузить только один файл архива Википедии с FTP прямо на S3. Размер файла составляет около 65 ГБ и будет передаваться на лету скриптом Python. Инфраструктура Нам нужно ведро, клейкое задание, роль IAM с некоторыми разрешениями, скрипт python, который будет..

Ускорьте подготовку данных для конвейеров машинного обучения на AWS

«С сервисами AWS жизнь проще» 21 апреля 2021 года Data Science Milan организовал webMeetup с участием Франческо Марелли, чтобы обсудить конвейеры обработки данных с помощью AWS. «Ускорьте подготовку данных для конвейеров машинного обучения на AWS», написано Франческо Марелли, старшим архитектором решений в AWS. Чтобы использовать огромные объемы данных, компании перемещают все свои данные из различных хранилищ в одно место, называемое озером данных, для выполнения аналитики и..

Вопросы по теме 'aws-glue'

Ошибка подключения AWS Glue Dynamobd истекла по тайм-ауту

import boto3 dynamodb = boto3.resource('dynamodb', region_name="us-east-1") table = dynamodb.Table('user_logs') response = table.scan() Я получил следующую ошибку для приведенного выше сценария задания клея aws...

1037 просмотров

python amazon-web-services aws-glue

25.11.2022

Объедините несколько необработанных файлов в один паркетный файл

У меня есть большое количество событий, разделенных yyyy / mm / dd / hh в S3. Каждый раздел содержит около 80 000 необработанных текстовых файлов. Каждый необработанный файл содержит около 1.000 событий в формате JSON. Когда я запускаю сценарий...

4185 просмотров

apache-spark pyspark etl aws-glue

25.06.2022

GlueArgumentError: требуется аргумент --input_file_path

Я создал скрипт pyspark (задание клея) и пытаюсь запустить его через экземпляр EC2 с помощью команды cli aws Glue Start-Job-Run --arguments (здесь я передаю список аргументов). Я пробовал как сокращенный синтаксис, так и синтаксис json для передачи...

6078 просмотров

aws-glue

14.02.2023

Glue Classifier не может классифицировать журналы s3 с использованием шаблона Gork

Проблема : Запуск Crawler с классификатором с правильным шаблоном gork не создает таблицу со столбцами, вместо этого создается таблица с 0 столбцами и recordCount 0 (но objectCount равен 5) Подробности . Я настроил Glue Crawler для просмотра...

608 просмотров

amazon-web-services amazon-s3 aws-glue

03.10.2022

AWS Glue преобразует структуру в динамический фрейм

Я немного новичок в AWSGlue. Я работаю над преобразованием сырого json-файла cloudwatch в csv с помощью AWSGlue. Сценарий преобразования довольно прост, однако документация и пример не кажутся исчерпывающими. Структура данных выглядит примерно так:...

9256 просмотров

python amazon-web-services aws-glue

02.02.2024

AWS Glue создает триггеры через API

У меня есть таблица, содержащая несколько расписаний для различных работ. Я хочу обработать записи и создать триггеры через API AWS Glue. http://docs.aws.amazon.com/glue/latest/dg/aws-glue-api.html По приведенной выше ссылке показана...

1457 просмотров

python amazon-web-services aws-glue

20.07.2022

AWS Athena выводит result.json в s3 - СОЗДАТЬ ТАБЛИЦУ КАК / ВСТАВИТЬ В ВЫБОР?

Можно ли каким-либо образом записать результаты запроса AWS Athena в results.json в ведре s3? Моя первая идея заключалась в том, чтобы использовать INSERT INTO SELECT ID, COUNT(*) ... или INSERT OVERWRITE , но, похоже, это не поддерживается в...

2459 просмотров

amazon-web-services json aws-glue amazon-athena

05.08.2022

Могу ли я использовать AWS Glue для преобразования данных JSON на S3 в столбчатый формат и отправки их в Redshift?

У меня есть данные во вложенном формате JSON на S3, которые постоянно обновляются. Я хочу, чтобы данные периодически передавали эти данные в кластер Redshift после преобразования. Может ли AWS Glue помочь в настройке периодических запусков, которые...

764 просмотров

amazon-web-services json amazon-s3 aws-glue amazon-redshift

06.05.2023

Присвоение имени паркетному файлу в Glue JOB

Как присвоить предопределенное имя файлам паркета в клеевом задании AWS? Например, после запуска моей работы файл паркета сохраняется в определенной папке с именем, например: part-00000-fc95461f-00da-437a-9396-93c7ea473720.snappy.parquet,...

354 просмотров

amazon-s3 parquet pyspark aws-glue

11.04.2023

AWS Glue: многораздельные базы данных SQL Server ETL в Redshift

Наша команда пытается создать ETL в Redshift, который будет нашим хранилищем данных для некоторых отчетов. Мы используем Microsoft SQL Server и разбили нашу базу данных на 40+ источников данных. Мы ищем способ передать данные из всех этих идентичных...

942 просмотров

sql-server etl aws-glue amazon-redshift database-partitioning

09.07.2023

Как настроить клеевые букмары для работы с кодом Scala?

Рассмотрим Scala-код: import com.amazonaws.services.glue.GlueContext import com.amazonaws.services.glue.util.{GlueArgParser, Job, JsonOptions} import org.apache.spark.SparkContext import scala.collection.JavaConverters.mapAsJavaMapConverter...

2185 просмотров

amazon-web-services scala aws-glue

28.12.2022

Могут ли Glue (сканеры) и athena управлять изменениями?

Glue создает файлы Parquet в s3 из источника JDBC. Схема: col1 col2 метка времени key1 val1 Сегодня key2 val2 Сегодня Файл паркета создан для сегодняшнего дня. Может быть запрошена Афиной. Завтрашнее обновление исходной таблицы...

476 просмотров

amazon-web-services etl aws-glue amazon-athena

22.01.2024

Как сообщить клею AWS, что мой json — это utf-8?

Я пытаюсь заставить AWS Glue Crawler создать таблицу для файла json. Мой файл JSON - это utf-8 со спецификацией. Кажется, что AWS Glue не распознает файл как json (или вообще что-то вообще), поэтому создает пустое определение таблицы. Обычные...

1212 просмотров

aws-glue

08.11.2022

Разрешение формата даты MySQL 0000-00-00 в AWS Glue с помощью Scala

Я пытаюсь создать простой сценарий AWS Glue, который загружал бы данные из одной базы данных MySQL в другую. Я застрял в начале, потому что моя исходная БД настроена на использование «0000-00-00 00:00:00» в качестве значений по умолчанию для столбцов...

272 просмотров

mysql apache-spark scala aws-glue

24.01.2023

Запуск AWS Glue Crawler на основе событий после загрузки файла в S3 Bucket?

Можно ли запустить поисковый робот AWS Glue для новых файлов, которые загружаются в корзину S3, при условии, что поисковый робот «указывает» на эту корзину? Другими словами: загрузка файла генерирует событие, которое заставляет сканер AWS Glue его...

11922 просмотров

amazon-web-services amazon-s3 aws-glue

19.03.2023

Ограничение памяти исполнителя AWS Glue

Я обнаружил, что AWS Glue настраивает экземпляр исполнителя с ограничением памяти до 5 Гб --conf spark.executor.memory=5g , а иногда на больших наборах данных он не работает с java.lang.OutOfMemoryError . То же самое и с экземпляром драйвера...

17199 просмотров

amazon-web-services apache-spark aws-glue

06.10.2022

Как настроить локальную среду разработки для запуска Scala Spark ETL в AWS Glue?

Я хотел бы иметь возможность написать Scala в своей локальной среде IDE, а затем развернуть ее в AWS Glue как часть процесса сборки. Но у меня возникают проблемы с поиском библиотек, необходимых для построения GlueApp скелета, созданного AWS....

7311 просмотров

pyspark scala aws-glue sbt

29.01.2023

Конвертировать JSON в ORC [AWS]

Это моя ситуация: у меня есть приложение, которое вращает файлы json в ведро s3. Мне нужно будет преобразовать эти файлы в формат ORC, чтобы получить консультацию от Athena или EMR. Моей первой попыткой была лямбда, запрограммированная на Node, но я...

1237 просмотров

amazon-s3 aws-lambda amazon-emr aws-glue orc

21.03.2023

Как объединить два узла в скрипте pyspark AWS Glue

У меня есть куча файлов JSON, которые мне нужно обработать. Структура (например, упрощенная) файлов JSON следующая (Схема каталога, когда поисковый робот aws glue запускал эти файлы json): root |-- Meta: struct | |-- DataModel: string | |--...

1140 просмотров

python amazon-web-services json pyspark aws-glue

11.10.2022

AWS Glue DynamicFrame пытается записать пустую строку как null

У меня есть задание AWS Glue по перемещению данных из таблицы RDS в Redshift. обе таблицы имеют одинаковую схему: -- RDS CREATE TABLE my_table ( id varchar(256) not null primary key col1 varchar(256) not null ) -- Redshift CREATE TABLE...

2063 просмотров

amazon-rds aws-glue amazon-redshift

03.10.2022