Публикации по теме 'aws-glue'


Каталог AWS Glue с разделами, не относящимися к Hive
Как включить Glue Crawlers для добавления разделов, отличных от Hive, в предопределенные таблицы Glue Catalog с помощью Terraform Цель С такими входными данными: s3://[Name]/2021/09/01/16/jsonFile.gz Добейтесь этого с помощью гусеничного клея: Задний план Недавно я начал проект, в котором производственные данные Firehose уже переносились в S3 отдельной командой разработчиков ( читай: их нельзя изменить ) в следующем формате: s3://[Name]/2021/09/01/16/jsonFile.gz..

Запуск AWS Glue Pythonshell
AWS — это сервис, который делает много вещей, связанных с ETL. Одна его часть — это задания, которые позволяют вам запускать ваш код. Здесь я покажу вам, как запустить простейшую работу, написанную на Python. Цель Я стремлюсь загрузить только один файл архива Википедии с FTP прямо на S3. Размер файла составляет около 65 ГБ и будет передаваться на лету скриптом Python. Инфраструктура Нам нужно ведро, клейкое задание, роль IAM с некоторыми разрешениями, скрипт python, который будет..

Ускорьте подготовку данных для конвейеров машинного обучения на AWS
«С сервисами AWS жизнь проще» 21 апреля 2021 года Data Science Milan организовал webMeetup с участием Франческо Марелли, чтобы обсудить конвейеры обработки данных с помощью AWS. «Ускорьте подготовку данных для конвейеров машинного обучения на AWS», написано Франческо Марелли, старшим архитектором решений в AWS. Чтобы использовать огромные объемы данных, компании перемещают все свои данные из различных хранилищ в одно место, называемое озером данных, для выполнения аналитики и..

Вопросы по теме 'aws-glue'

Ошибка подключения AWS Glue Dynamobd истекла по тайм-ауту
import boto3 dynamodb = boto3.resource('dynamodb', region_name="us-east-1") table = dynamodb.Table('user_logs') response = table.scan() Я получил следующую ошибку для приведенного выше сценария задания клея aws...
1037 просмотров
schedule 25.11.2022

Объедините несколько необработанных файлов в один паркетный файл
У меня есть большое количество событий, разделенных yyyy / mm / dd / hh в S3. Каждый раздел содержит около 80 000 необработанных текстовых файлов. Каждый необработанный файл содержит около 1.000 событий в формате JSON. Когда я запускаю сценарий...
4185 просмотров
schedule 25.06.2022

GlueArgumentError: требуется аргумент --input_file_path
Я создал скрипт pyspark (задание клея) и пытаюсь запустить его через экземпляр EC2 с помощью команды cli aws Glue Start-Job-Run --arguments (здесь я передаю список аргументов). Я пробовал как сокращенный синтаксис, так и синтаксис json для передачи...
6078 просмотров
schedule 14.02.2023

Glue Classifier не может классифицировать журналы s3 с использованием шаблона Gork
Проблема : Запуск Crawler с классификатором с правильным шаблоном gork не создает таблицу со столбцами, вместо этого создается таблица с 0 столбцами и recordCount 0 (но objectCount равен 5) Подробности . Я настроил Glue Crawler для просмотра...
608 просмотров
schedule 03.10.2022

AWS Glue преобразует структуру в динамический фрейм
Я немного новичок в AWSGlue. Я работаю над преобразованием сырого json-файла cloudwatch в csv с помощью AWSGlue. Сценарий преобразования довольно прост, однако документация и пример не кажутся исчерпывающими. Структура данных выглядит примерно так:...
9256 просмотров
schedule 02.02.2024

AWS Glue создает триггеры через API
У меня есть таблица, содержащая несколько расписаний для различных работ. Я хочу обработать записи и создать триггеры через API AWS Glue. http://docs.aws.amazon.com/glue/latest/dg/aws-glue-api.html По приведенной выше ссылке показана...
1457 просмотров
schedule 20.07.2022

AWS Athena выводит result.json в s3 - СОЗДАТЬ ТАБЛИЦУ КАК / ВСТАВИТЬ В ВЫБОР?
Можно ли каким-либо образом записать результаты запроса AWS Athena в results.json в ведре s3? Моя первая идея заключалась в том, чтобы использовать INSERT INTO SELECT ID, COUNT(*) ... или INSERT OVERWRITE , но, похоже, это не поддерживается в...
2459 просмотров

Могу ли я использовать AWS Glue для преобразования данных JSON на S3 в столбчатый формат и отправки их в Redshift?
У меня есть данные во вложенном формате JSON на S3, которые постоянно обновляются. Я хочу, чтобы данные периодически передавали эти данные в кластер Redshift после преобразования. Может ли AWS Glue помочь в настройке периодических запусков, которые...
764 просмотров

Присвоение имени паркетному файлу в Glue JOB
Как присвоить предопределенное имя файлам паркета в клеевом задании AWS? Например, после запуска моей работы файл паркета сохраняется в определенной папке с именем, например: part-00000-fc95461f-00da-437a-9396-93c7ea473720.sn​appy.parquet,...
354 просмотров
schedule 11.04.2023

AWS Glue: многораздельные базы данных SQL Server ETL в Redshift
Наша команда пытается создать ETL в Redshift, который будет нашим хранилищем данных для некоторых отчетов. Мы используем Microsoft SQL Server и разбили нашу базу данных на 40+ источников данных. Мы ищем способ передать данные из всех этих идентичных...
942 просмотров

Как настроить клеевые букмары для работы с кодом Scala?
Рассмотрим Scala-код: import com.amazonaws.services.glue.GlueContext import com.amazonaws.services.glue.util.{GlueArgParser, Job, JsonOptions} import org.apache.spark.SparkContext import scala.collection.JavaConverters.mapAsJavaMapConverter...
2185 просмотров
schedule 28.12.2022

Могут ли Glue (сканеры) и athena управлять изменениями?
Glue создает файлы Parquet в s3 из источника JDBC. Схема: col1 col2 метка времени key1 val1 Сегодня key2 val2 Сегодня Файл паркета создан для сегодняшнего дня. Может быть запрошена Афиной. Завтрашнее обновление исходной таблицы...
476 просмотров

Как сообщить клею AWS, что мой json — это utf-8?
Я пытаюсь заставить AWS Glue Crawler создать таблицу для файла json. Мой файл JSON - это utf-8 со спецификацией. Кажется, что AWS Glue не распознает файл как json (или вообще что-то вообще), поэтому создает пустое определение таблицы. Обычные...
1212 просмотров
schedule 08.11.2022

Разрешение формата даты MySQL 0000-00-00 в AWS Glue с помощью Scala
Я пытаюсь создать простой сценарий AWS Glue, который загружал бы данные из одной базы данных MySQL в другую. Я застрял в начале, потому что моя исходная БД настроена на использование «0000-00-00 00:00:00» в качестве значений по умолчанию для столбцов...
272 просмотров
schedule 24.01.2023

Запуск AWS Glue Crawler на основе событий после загрузки файла в S3 Bucket?
Можно ли запустить поисковый робот AWS Glue для новых файлов, которые загружаются в корзину S3, при условии, что поисковый робот «указывает» на эту корзину? Другими словами: загрузка файла генерирует событие, которое заставляет сканер AWS Glue его...
11922 просмотров
schedule 19.03.2023

Ограничение памяти исполнителя AWS Glue
Я обнаружил, что AWS Glue настраивает экземпляр исполнителя с ограничением памяти до 5 Гб --conf spark.executor.memory=5g , а иногда на больших наборах данных он не работает с java.lang.OutOfMemoryError . То же самое и с экземпляром драйвера...
17199 просмотров

Как настроить локальную среду разработки для запуска Scala Spark ETL в AWS Glue?
Я хотел бы иметь возможность написать Scala в своей локальной среде IDE, а затем развернуть ее в AWS Glue как часть процесса сборки. Но у меня возникают проблемы с поиском библиотек, необходимых для построения GlueApp скелета, созданного AWS....
7311 просмотров
schedule 29.01.2023

Конвертировать JSON в ORC [AWS]
Это моя ситуация: у меня есть приложение, которое вращает файлы json в ведро s3. Мне нужно будет преобразовать эти файлы в формат ORC, чтобы получить консультацию от Athena или EMR. Моей первой попыткой была лямбда, запрограммированная на Node, но я...
1237 просмотров

Как объединить два узла в скрипте pyspark AWS Glue
У меня есть куча файлов JSON, которые мне нужно обработать. Структура (например, упрощенная) файлов JSON следующая (Схема каталога, когда поисковый робот aws glue запускал эти файлы json): root |-- Meta: struct | |-- DataModel: string | |--...
1140 просмотров

AWS Glue DynamicFrame пытается записать пустую строку как null
У меня есть задание AWS Glue по перемещению данных из таблицы RDS в Redshift. обе таблицы имеют одинаковую схему: -- RDS CREATE TABLE my_table ( id varchar(256) not null primary key col1 varchar(256) not null ) -- Redshift CREATE TABLE...
2063 просмотров
schedule 03.10.2022