Публикации по тегам emr [python, amazon-web-services, amazon-emr, hadoop, emr]

Вопросы по теме 'emr'

У меня давно запущено потоковое задание Hadoop на Amazon EMR (15 узлов, >1,5 часа). Задание завершается с ошибкой примерно на 75% уровне завершения. Я использую Python как для картографа, так и для редуктора. Я сделал следующую оптимизацию:...

1192 просмотров

08.02.2023

Hive Table добавить раздел для загрузки всех подкаталогов

Я использую куст (с внешними таблицами) для обработки данных, хранящихся на amazon S3. Мои данные разделены следующим образом: group/team/dt/ (например, файл данных может храниться по пути group=myGroup/team=myTeam/dt=20120603 ) Я хотел бы...

15006 просмотров

amazon-emr hadoop hive emr

23.05.2023

Как сделать таблицу HIVE из данных JSON?

Я хочу создать таблицу Hive из некоторых данных JSON (вложенных) и выполнять по ней запросы? Это вообще возможно? Я дошел до загрузки файла JSON в S3 и запуска экземпляра EMR, но я не знаю, что набрать в консоли улья, чтобы файл JSON стал таблицей...

97324 просмотров

json amazon-emr hadoop hive emr

27.11.2023

Лучший способ иметь хранилище с быстрым доступом для огромного набора данных (5 ГБ)

Существует набор данных размером ~ 5 ГБ. Этот большой набор данных содержит только пару ключ-значение в каждой строке. Теперь это нужно прочитать для значения ключей несколько миллиардов раз. Я уже пробовал дисковый подход MapDB , но он выдает...

955 просмотров

java hadoop mapreduce elastic-map-reduce emr

16.11.2022

Неверное или не полностью прочитанное значение, отправленное в метод карты в классе Mapper

У меня есть работа, состоящая из 3 шагов. Мой ввод — это зашифрованные объекты JSON (по одному на строку), хранящиеся в Amazon S3. (s3e://). Параметры работы: job.setInputFormatClass(TextInputFormat.class);...

196 просмотров

amazon-s3 amazon-emr hadoop emr

17.11.2022

Как объединить небольшие файлы на S3, сгенерированные EMR, с тысячами редукторов

Мое задание cascalog EMR сгенерировало тысячи небольших файлов в корзинах S3. Он генерирует такое же количество файлов, как и количество редукторов, которые я использовал. Сброс всех этих крошечных файлов занимает несколько минут. Интересно, есть...

1210 просмотров

amazon-web-services amazon-s3 hadoop emr cascalog

15.04.2023

Запуск сканирования Nutch на EMR (новичок)

Я впервые пользуюсь EMR/Hadoop и впервые использую Apache Nutch. Я пытаюсь использовать Apache Nutch 2.1 для очистки экрана. Я хотел бы запустить его на Hadoop, но не хочу настраивать свой собственный кластер (по одной кривой обучения за раз)....

1501 просмотров

amazon-web-services nutch emr

13.03.2022

Кложур + Лемур

Я пытаюсь выполнить многоэтапную работу, используя lemur + clojure. У меня проблема с передачей нескольких входных данных в качестве аргумента в clojure+lemur. В качестве первого шага для моей работы я пытаюсь запустить emr Streaming Job....

237 просмотров

amazon-emr hadoop clojure emr cascalog

04.12.2023

403 AccessDenied на Amazon S3 удалить защищенную папку

У меня есть одна папка в amazon s3 , для которой я ограничил разрешение на удаление любой папки. Но теперь случилось то, что я не могу создать какую-либо папку с помощью сценария куста. Этот запрос куста создает одну временную папку под именем...

405 просмотров

amazon-ec2 amazon-s3 hadoop hive emr

12.11.2022

как указать подстановочные знаки в имени файла для задания amazon EMR

Если я запускаю задание EMR и указываю подстановочные знаки в пути к каталогу, все работает нормально, например: s3n://mybucket/ / /*/fileName.gz --- выбирает все файлы с именем fileName.gz в подкаталогах mybucket Однако, когда я указываю...

371 просмотров

emr

07.02.2023

как перезапустить кластер hadoop на emr

У меня есть установка hadoop на Amazon Elastic MapReduce, всякий раз, когда я пытаюсь перезапустить кластер, я получаю следующую ошибку: /stop-all.sh no jobtracker to stop The authenticity of host 'localhost (::1)' can't be established. RSA key...

6937 просмотров

hadoop emr

27.02.2022

Как файлы данных должны быть включены в mrjob на EMR?

Я пытаюсь запустить mrjob на Amazon EMR. Я тестировал задание локально, используя встроенный бегун, но он не работает при запуске на Amazon. Я сузил ошибку до своей зависимости от внешнего файла данных zip_codes.txt . Если я бегу без этой...

3661 просмотров

python amazon-emr mapreduce mrjob emr

20.06.2022

Как читать массивы из документа JSON в кусте EMR?

Поддерживает ли Amazon hive jsonserde.jar массивы? Если да, не могли бы вы показать мне простой пример, как читать массивы Json с помощью Amazon jsonserde.jar. Теперь я хочу узнать, как установить свойство пути SerDe, когда я определяю столбец...

1069 просмотров

arrays hive amazon emr

07.08.2022

WebHCat в EMR Amazon?

Возможно или целесообразно запускать WebHCat в кластере Amazon Elastic MapReduce? Я новичок в этой технологии, и мне было интересно, можно ли использовать WebHCat в качестве интерфейса REST для выполнения запросов Hive. Рассматриваемый кластер...

867 просмотров

amazon-web-services hive emr

20.12.2022

Создайте кластер EMR без общедоступных IP-адресов

Я хочу создать кластер EMR, в котором ни одному из экземпляров не назначен общедоступный IP-адрес по соображениям безопасности. Мне удалось запустить кластер в моем VPC и использовать собственную пользовательскую группу безопасности, но по какой-то...

2255 просмотров

amazon-web-services hadoop emr

20.11.2023

Запуск Custom JAR на Amazon EMR с ошибкой (ошибка файловой системы) с использованием ввода и вывода Amazon S3 Bucket

Я пытаюсь запустить пользовательский JAR-файл в кластере Amazon EMR, используя входные и выходные параметры пользовательского JAR-файла в виде сегментов S3 ( -input s3n://s3_bucket_name/ldas/in -output s3n://s3_bucket_name/ldas/out ) Когда кластер...

2002 просмотров

amazon-s3 amazon-emr hadoop hdfs emr

01.06.2023

org.apache.hadoop.mapred.YarnChild: ошибка при запуске дочернего элемента: java.lang.OutOfMemoryError: пространство кучи Java

У меня есть быстро сжатый файл размером 90 МБ, который я пытаюсь использовать в качестве входных данных для Hadoop 2.2.0 на AMI 3.0.4 в AWS EMR. Сразу же при попытке прочитать файл мой считыватель записей получает следующее исключение:...

10748 просмотров

hadoop snappy emr

15.07.2022

Сбой подпроцесса программы Hadoop Streaming с кодом 139

Я запускаю потоковую программу Hadoop (написанную на Python) через Amazon EMR, у которой возникают некоторые проблемы. Все работает нормально, когда я провожу тесты с несколькими тысячами записей и много раз тестировал программу локально, все,...

2618 просмотров

python memory-leaks hadoop multiprocessing emr

25.04.2022

Как изменить память в потоковом задании EMR Hadoop

Я пытаюсь устранить следующую ошибку в потоковом задании Hadoop на EMR. Container [pid=30356,containerID=container_1391517294402_0148_01_000021] is running beyond physical memory limits Я пытался искать ответы, но тот, который я нашел, не...

2042 просмотров

streaming hadoop memory emr

25.11.2022

Конфигурации Amazon Elastic Mapreduce по умолчанию

Публикуются ли Amazon настройки Hadoop по умолчанию (core-site.xml, yarn-site.xml и т. д.)? Я видел опубликованные некоторые параметры, но не общие конфигурации по умолчанию.

1413 просмотров

amazon-ec2 hadoop emr

06.11.2022