Вопросы по теме 'emr'

Обеспечение журналов в Hadoop EMR
У меня давно запущено потоковое задание Hadoop на Amazon EMR (15 узлов, >1,5 часа). Задание завершается с ошибкой примерно на 75% уровне завершения. Я использую Python как для картографа, так и для редуктора. Я сделал следующую оптимизацию:...
1192 просмотров

Hive Table добавить раздел для загрузки всех подкаталогов
Я использую куст (с внешними таблицами) для обработки данных, хранящихся на amazon S3. Мои данные разделены следующим образом: group/team/dt/ (например, файл данных может храниться по пути group=myGroup/team=myTeam/dt=20120603 ) Я хотел бы...
15006 просмотров
schedule 23.05.2023

Как сделать таблицу HIVE из данных JSON?
Я хочу создать таблицу Hive из некоторых данных JSON (вложенных) и выполнять по ней запросы? Это вообще возможно? Я дошел до загрузки файла JSON в S3 и запуска экземпляра EMR, но я не знаю, что набрать в консоли улья, чтобы файл JSON стал таблицей...
97324 просмотров
schedule 27.11.2023

Лучший способ иметь хранилище с быстрым доступом для огромного набора данных (5 ГБ)
Существует набор данных размером ~ 5 ГБ. Этот большой набор данных содержит только пару ключ-значение в каждой строке. Теперь это нужно прочитать для значения ключей несколько миллиардов раз. Я уже пробовал дисковый подход MapDB , но он выдает...
955 просмотров

Неверное или не полностью прочитанное значение, отправленное в метод карты в классе Mapper
У меня есть работа, состоящая из 3 шагов. Мой ввод — это зашифрованные объекты JSON (по одному на строку), хранящиеся в Amazon S3. (s3e://). Параметры работы: job.setInputFormatClass(TextInputFormat.class);...
196 просмотров
schedule 17.11.2022

Как объединить небольшие файлы на S3, сгенерированные EMR, с тысячами редукторов
Мое задание cascalog EMR сгенерировало тысячи небольших файлов в корзинах S3. Он генерирует такое же количество файлов, как и количество редукторов, которые я использовал. Сброс всех этих крошечных файлов занимает несколько минут. Интересно, есть...
1210 просмотров

Запуск сканирования Nutch на EMR (новичок)
Я впервые пользуюсь EMR/Hadoop и впервые использую Apache Nutch. Я пытаюсь использовать Apache Nutch 2.1 для очистки экрана. Я хотел бы запустить его на Hadoop, но не хочу настраивать свой собственный кластер (по одной кривой обучения за раз)....
1501 просмотров
schedule 13.03.2022

Кложур + Лемур
Я пытаюсь выполнить многоэтапную работу, используя lemur + clojure. У меня проблема с передачей нескольких входных данных в качестве аргумента в clojure+lemur. В качестве первого шага для моей работы я пытаюсь запустить emr Streaming Job....
237 просмотров
schedule 04.12.2023

403 AccessDenied на Amazon S3 удалить защищенную папку
У меня есть одна папка в amazon s3 , для которой я ограничил разрешение на удаление любой папки. Но теперь случилось то, что я не могу создать какую-либо папку с помощью сценария куста. Этот запрос куста создает одну временную папку под именем...
405 просмотров
schedule 12.11.2022

как указать подстановочные знаки в имени файла для задания amazon EMR
Если я запускаю задание EMR и указываю подстановочные знаки в пути к каталогу, все работает нормально, например: s3n://mybucket/ / /*/fileName.gz --- выбирает все файлы с именем fileName.gz в подкаталогах mybucket Однако, когда я указываю...
371 просмотров
emr
schedule 07.02.2023

как перезапустить кластер hadoop на emr
У меня есть установка hadoop на Amazon Elastic MapReduce, всякий раз, когда я пытаюсь перезапустить кластер, я получаю следующую ошибку: /stop-all.sh no jobtracker to stop The authenticity of host 'localhost (::1)' can't be established. RSA key...
6937 просмотров
schedule 27.02.2022

Как файлы данных должны быть включены в mrjob на EMR?
Я пытаюсь запустить mrjob на Amazon EMR. Я тестировал задание локально, используя встроенный бегун, но он не работает при запуске на Amazon. Я сузил ошибку до своей зависимости от внешнего файла данных zip_codes.txt . Если я бегу без этой...
3661 просмотров
schedule 20.06.2022

Как читать массивы из документа JSON в кусте EMR?
Поддерживает ли Amazon hive jsonserde.jar массивы? Если да, не могли бы вы показать мне простой пример, как читать массивы Json с помощью Amazon jsonserde.jar. Теперь я хочу узнать, как установить свойство пути SerDe, когда я определяю столбец...
1069 просмотров
schedule 07.08.2022

WebHCat в EMR Amazon?
Возможно или целесообразно запускать WebHCat в кластере Amazon Elastic MapReduce? Я новичок в этой технологии, и мне было интересно, можно ли использовать WebHCat в качестве интерфейса REST для выполнения запросов Hive. Рассматриваемый кластер...
867 просмотров
schedule 20.12.2022

Создайте кластер EMR без общедоступных IP-адресов
Я хочу создать кластер EMR, в котором ни одному из экземпляров не назначен общедоступный IP-адрес по соображениям безопасности. Мне удалось запустить кластер в моем VPC и использовать собственную пользовательскую группу безопасности, но по какой-то...
2255 просмотров
schedule 20.11.2023

Запуск Custom JAR на Amazon EMR с ошибкой (ошибка файловой системы) с использованием ввода и вывода Amazon S3 Bucket
Я пытаюсь запустить пользовательский JAR-файл в кластере Amazon EMR, используя входные и выходные параметры пользовательского JAR-файла в виде сегментов S3 ( -input s3n://s3_bucket_name/ldas/in -output s3n://s3_bucket_name/ldas/out ) Когда кластер...
2002 просмотров
schedule 01.06.2023

org.apache.hadoop.mapred.YarnChild: ошибка при запуске дочернего элемента: java.lang.OutOfMemoryError: пространство кучи Java
У меня есть быстро сжатый файл размером 90 МБ, который я пытаюсь использовать в качестве входных данных для Hadoop 2.2.0 на AMI 3.0.4 в AWS EMR. Сразу же при попытке прочитать файл мой считыватель записей получает следующее исключение:...
10748 просмотров
schedule 15.07.2022

Сбой подпроцесса программы Hadoop Streaming с кодом 139
Я запускаю потоковую программу Hadoop (написанную на Python) через Amazon EMR, у которой возникают некоторые проблемы. Все работает нормально, когда я провожу тесты с несколькими тысячами записей и много раз тестировал программу локально, все,...
2618 просмотров

Как изменить память в потоковом задании EMR Hadoop
Я пытаюсь устранить следующую ошибку в потоковом задании Hadoop на EMR. Container [pid=30356,containerID=container_1391517294402_0148_01_000021] is running beyond physical memory limits Я пытался искать ответы, но тот, который я нашел, не...
2042 просмотров
schedule 25.11.2022

Конфигурации Amazon Elastic Mapreduce по умолчанию
Публикуются ли Amazon настройки Hadoop по умолчанию (core-site.xml, yarn-site.xml и т. д.)? Я видел опубликованные некоторые параметры, но не общие конфигурации по умолчанию.
1413 просмотров
schedule 06.11.2022