Публикации по теме 'aws-glue'
Каталог AWS Glue с разделами, не относящимися к Hive
Как включить Glue Crawlers для добавления разделов, отличных от Hive, в предопределенные таблицы Glue Catalog с помощью Terraform
Цель
С такими входными данными:
s3://[Name]/2021/09/01/16/jsonFile.gz
Добейтесь этого с помощью гусеничного клея:
Задний план
Недавно я начал проект, в котором производственные данные Firehose уже переносились в S3 отдельной командой разработчиков ( читай: их нельзя изменить ) в следующем формате: s3://[Name]/2021/09/01/16/jsonFile.gz..
Запуск AWS Glue Pythonshell
AWS — это сервис, который делает много вещей, связанных с ETL. Одна его часть — это задания, которые позволяют вам запускать ваш код. Здесь я покажу вам, как запустить простейшую работу, написанную на Python.
Цель
Я стремлюсь загрузить только один файл архива Википедии с FTP прямо на S3. Размер файла составляет около 65 ГБ и будет передаваться на лету скриптом Python.
Инфраструктура
Нам нужно ведро, клейкое задание, роль IAM с некоторыми разрешениями, скрипт python, который будет..
Ускорьте подготовку данных для конвейеров машинного обучения на AWS
«С сервисами AWS жизнь проще»
21 апреля 2021 года Data Science Milan организовал webMeetup с участием Франческо Марелли, чтобы обсудить конвейеры обработки данных с помощью AWS.
«Ускорьте подготовку данных для конвейеров машинного обучения на AWS», написано Франческо Марелли, старшим архитектором решений в AWS.
Чтобы использовать огромные объемы данных, компании перемещают все свои данные из различных хранилищ в одно место, называемое озером данных, для выполнения аналитики и..
Вопросы по теме 'aws-glue'
Ошибка подключения AWS Glue Dynamobd истекла по тайм-ауту
import boto3
dynamodb = boto3.resource('dynamodb', region_name="us-east-1")
table = dynamodb.Table('user_logs')
response = table.scan()
Я получил следующую ошибку для приведенного выше сценария задания клея aws...
1037 просмотров
schedule
25.11.2022
Объедините несколько необработанных файлов в один паркетный файл
У меня есть большое количество событий, разделенных yyyy / mm / dd / hh в S3. Каждый раздел содержит около 80 000 необработанных текстовых файлов. Каждый необработанный файл содержит около 1.000 событий в формате JSON.
Когда я запускаю сценарий...
4185 просмотров
schedule
25.06.2022
GlueArgumentError: требуется аргумент --input_file_path
Я создал скрипт pyspark (задание клея) и пытаюсь запустить его через экземпляр EC2 с помощью команды cli aws Glue Start-Job-Run --arguments (здесь я передаю список аргументов). Я пробовал как сокращенный синтаксис, так и синтаксис json для передачи...
6078 просмотров
schedule
14.02.2023
Glue Classifier не может классифицировать журналы s3 с использованием шаблона Gork
Проблема : Запуск Crawler с классификатором с правильным шаблоном gork не создает таблицу со столбцами, вместо этого создается таблица с 0 столбцами и recordCount 0 (но objectCount равен 5)
Подробности . Я настроил Glue Crawler для просмотра...
608 просмотров
schedule
03.10.2022
AWS Glue преобразует структуру в динамический фрейм
Я немного новичок в AWSGlue. Я работаю над преобразованием сырого json-файла cloudwatch в csv с помощью AWSGlue. Сценарий преобразования довольно прост, однако документация и пример не кажутся исчерпывающими. Структура данных выглядит примерно так:...
9256 просмотров
schedule
02.02.2024
AWS Glue создает триггеры через API
У меня есть таблица, содержащая несколько расписаний для различных работ.
Я хочу обработать записи и создать триггеры через API AWS Glue.
http://docs.aws.amazon.com/glue/latest/dg/aws-glue-api.html
По приведенной выше ссылке показана...
1457 просмотров
schedule
20.07.2022
AWS Athena выводит result.json в s3 - СОЗДАТЬ ТАБЛИЦУ КАК / ВСТАВИТЬ В ВЫБОР?
Можно ли каким-либо образом записать результаты запроса AWS Athena в results.json в ведре s3?
Моя первая идея заключалась в том, чтобы использовать INSERT INTO SELECT ID, COUNT(*) ... или INSERT OVERWRITE , но, похоже, это не поддерживается в...
2459 просмотров
schedule
05.08.2022
Могу ли я использовать AWS Glue для преобразования данных JSON на S3 в столбчатый формат и отправки их в Redshift?
У меня есть данные во вложенном формате JSON на S3, которые постоянно обновляются. Я хочу, чтобы данные периодически передавали эти данные в кластер Redshift после преобразования. Может ли AWS Glue помочь в настройке периодических запусков, которые...
764 просмотров
schedule
06.05.2023
Присвоение имени паркетному файлу в Glue JOB
Как присвоить предопределенное имя файлам паркета в клеевом задании AWS?
Например, после запуска моей работы файл паркета сохраняется в определенной папке с именем, например:
part-00000-fc95461f-00da-437a-9396-93c7ea473720.snappy.parquet,...
354 просмотров
schedule
11.04.2023
AWS Glue: многораздельные базы данных SQL Server ETL в Redshift
Наша команда пытается создать ETL в Redshift, который будет нашим хранилищем данных для некоторых отчетов. Мы используем Microsoft SQL Server и разбили нашу базу данных на 40+ источников данных. Мы ищем способ передать данные из всех этих идентичных...
942 просмотров
schedule
09.07.2023
Как настроить клеевые букмары для работы с кодом Scala?
Рассмотрим Scala-код:
import com.amazonaws.services.glue.GlueContext
import com.amazonaws.services.glue.util.{GlueArgParser, Job, JsonOptions}
import org.apache.spark.SparkContext
import scala.collection.JavaConverters.mapAsJavaMapConverter...
2185 просмотров
schedule
28.12.2022
Могут ли Glue (сканеры) и athena управлять изменениями?
Glue создает файлы Parquet в s3 из источника JDBC.
Схема:
col1 col2 метка времени
key1 val1 Сегодня key2 val2 Сегодня
Файл паркета создан для сегодняшнего дня. Может быть запрошена Афиной.
Завтрашнее обновление исходной таблицы...
476 просмотров
schedule
22.01.2024
Как сообщить клею AWS, что мой json — это utf-8?
Я пытаюсь заставить AWS Glue Crawler создать таблицу для файла json. Мой файл JSON - это utf-8 со спецификацией. Кажется, что AWS Glue не распознает файл как json (или вообще что-то вообще), поэтому создает пустое определение таблицы. Обычные...
1212 просмотров
schedule
08.11.2022
Разрешение формата даты MySQL 0000-00-00 в AWS Glue с помощью Scala
Я пытаюсь создать простой сценарий AWS Glue, который загружал бы данные из одной базы данных MySQL в другую. Я застрял в начале, потому что моя исходная БД настроена на использование «0000-00-00 00:00:00» в качестве значений по умолчанию для столбцов...
272 просмотров
schedule
24.01.2023
Запуск AWS Glue Crawler на основе событий после загрузки файла в S3 Bucket?
Можно ли запустить поисковый робот AWS Glue для новых файлов, которые загружаются в корзину S3, при условии, что поисковый робот «указывает» на эту корзину? Другими словами: загрузка файла генерирует событие, которое заставляет сканер AWS Glue его...
11922 просмотров
schedule
19.03.2023
Ограничение памяти исполнителя AWS Glue
Я обнаружил, что AWS Glue настраивает экземпляр исполнителя с ограничением памяти до 5 Гб --conf spark.executor.memory=5g , а иногда на больших наборах данных он не работает с java.lang.OutOfMemoryError . То же самое и с экземпляром драйвера...
17199 просмотров
schedule
06.10.2022
Как настроить локальную среду разработки для запуска Scala Spark ETL в AWS Glue?
Я хотел бы иметь возможность написать Scala в своей локальной среде IDE, а затем развернуть ее в AWS Glue как часть процесса сборки. Но у меня возникают проблемы с поиском библиотек, необходимых для построения GlueApp скелета, созданного AWS....
7311 просмотров
schedule
29.01.2023
Конвертировать JSON в ORC [AWS]
Это моя ситуация: у меня есть приложение, которое вращает файлы json в ведро s3. Мне нужно будет преобразовать эти файлы в формат ORC, чтобы получить консультацию от Athena или EMR. Моей первой попыткой была лямбда, запрограммированная на Node, но я...
1237 просмотров
schedule
21.03.2023
Как объединить два узла в скрипте pyspark AWS Glue
У меня есть куча файлов JSON, которые мне нужно обработать. Структура (например, упрощенная) файлов JSON следующая (Схема каталога, когда поисковый робот aws glue запускал эти файлы json):
root
|-- Meta: struct
| |-- DataModel: string
| |--...
1140 просмотров
schedule
11.10.2022
AWS Glue DynamicFrame пытается записать пустую строку как null
У меня есть задание AWS Glue по перемещению данных из таблицы RDS в Redshift.
обе таблицы имеют одинаковую схему:
-- RDS
CREATE TABLE my_table (
id varchar(256) not null primary key
col1 varchar(256) not null
)
-- Redshift
CREATE TABLE...
2063 просмотров
schedule
03.10.2022