Вопросы по теме 'emr'
Обеспечение журналов в Hadoop EMR
У меня давно запущено потоковое задание Hadoop на Amazon EMR (15 узлов, >1,5 часа). Задание завершается с ошибкой примерно на 75% уровне завершения. Я использую Python как для картографа, так и для редуктора.
Я сделал следующую оптимизацию:...
1192 просмотров
schedule
08.02.2023
Hive Table добавить раздел для загрузки всех подкаталогов
Я использую куст (с внешними таблицами) для обработки данных, хранящихся на amazon S3.
Мои данные разделены следующим образом: group/team/dt/ (например, файл данных может храниться по пути group=myGroup/team=myTeam/dt=20120603 )
Я хотел бы...
15006 просмотров
schedule
23.05.2023
Как сделать таблицу HIVE из данных JSON?
Я хочу создать таблицу Hive из некоторых данных JSON (вложенных) и выполнять по ней запросы? Это вообще возможно?
Я дошел до загрузки файла JSON в S3 и запуска экземпляра EMR, но я не знаю, что набрать в консоли улья, чтобы файл JSON стал таблицей...
97324 просмотров
schedule
27.11.2023
Лучший способ иметь хранилище с быстрым доступом для огромного набора данных (5 ГБ)
Существует набор данных размером ~ 5 ГБ. Этот большой набор данных содержит только пару ключ-значение в каждой строке. Теперь это нужно прочитать для значения ключей несколько миллиардов раз.
Я уже пробовал дисковый подход MapDB , но он выдает...
955 просмотров
schedule
16.11.2022
Неверное или не полностью прочитанное значение, отправленное в метод карты в классе Mapper
У меня есть работа, состоящая из 3 шагов. Мой ввод — это зашифрованные объекты JSON (по одному на строку), хранящиеся в Amazon S3. (s3e://).
Параметры работы:
job.setInputFormatClass(TextInputFormat.class);...
196 просмотров
schedule
17.11.2022
Как объединить небольшие файлы на S3, сгенерированные EMR, с тысячами редукторов
Мое задание cascalog EMR сгенерировало тысячи небольших файлов в корзинах S3. Он генерирует такое же количество файлов, как и количество редукторов, которые я использовал. Сброс всех этих крошечных файлов занимает несколько минут. Интересно, есть...
1210 просмотров
schedule
15.04.2023
Запуск сканирования Nutch на EMR (новичок)
Я впервые пользуюсь EMR/Hadoop и впервые использую Apache Nutch. Я пытаюсь использовать Apache Nutch 2.1 для очистки экрана. Я хотел бы запустить его на Hadoop, но не хочу настраивать свой собственный кластер (по одной кривой обучения за раз)....
1501 просмотров
schedule
13.03.2022
Кложур + Лемур
Я пытаюсь выполнить многоэтапную работу, используя lemur + clojure.
У меня проблема с передачей нескольких входных данных в качестве аргумента в clojure+lemur.
В качестве первого шага для моей работы я пытаюсь запустить emr Streaming Job....
237 просмотров
schedule
04.12.2023
403 AccessDenied на Amazon S3 удалить защищенную папку
У меня есть одна папка в amazon s3 , для которой я ограничил разрешение на удаление любой папки. Но теперь случилось то, что я не могу создать какую-либо папку с помощью сценария куста. Этот запрос куста создает одну временную папку под именем...
405 просмотров
schedule
12.11.2022
как указать подстановочные знаки в имени файла для задания amazon EMR
Если я запускаю задание EMR и указываю подстановочные знаки в пути к каталогу, все работает нормально, например: s3n://mybucket/ / /*/fileName.gz --- выбирает все файлы с именем fileName.gz в подкаталогах mybucket
Однако, когда я указываю...
371 просмотров
schedule
07.02.2023
как перезапустить кластер hadoop на emr
У меня есть установка hadoop на Amazon Elastic MapReduce, всякий раз, когда я пытаюсь перезапустить кластер, я получаю следующую ошибку:
/stop-all.sh
no jobtracker to stop
The authenticity of host 'localhost (::1)' can't be established. RSA key...
6937 просмотров
schedule
27.02.2022
Как файлы данных должны быть включены в mrjob на EMR?
Я пытаюсь запустить mrjob на Amazon EMR. Я тестировал задание локально, используя встроенный бегун, но он не работает при запуске на Amazon. Я сузил ошибку до своей зависимости от внешнего файла данных zip_codes.txt . Если я бегу без этой...
3661 просмотров
schedule
20.06.2022
Как читать массивы из документа JSON в кусте EMR?
Поддерживает ли Amazon hive jsonserde.jar массивы? Если да, не могли бы вы показать мне простой пример, как читать массивы Json с помощью Amazon jsonserde.jar. Теперь я хочу узнать, как установить свойство пути SerDe, когда я определяю столбец...
1069 просмотров
schedule
07.08.2022
WebHCat в EMR Amazon?
Возможно или целесообразно запускать WebHCat в кластере Amazon Elastic MapReduce?
Я новичок в этой технологии, и мне было интересно, можно ли использовать WebHCat в качестве интерфейса REST для выполнения запросов Hive. Рассматриваемый кластер...
867 просмотров
schedule
20.12.2022
Создайте кластер EMR без общедоступных IP-адресов
Я хочу создать кластер EMR, в котором ни одному из экземпляров не назначен общедоступный IP-адрес по соображениям безопасности. Мне удалось запустить кластер в моем VPC и использовать собственную пользовательскую группу безопасности, но по какой-то...
2255 просмотров
schedule
20.11.2023
Запуск Custom JAR на Amazon EMR с ошибкой (ошибка файловой системы) с использованием ввода и вывода Amazon S3 Bucket
Я пытаюсь запустить пользовательский JAR-файл в кластере Amazon EMR, используя входные и выходные параметры пользовательского JAR-файла в виде сегментов S3 ( -input s3n://s3_bucket_name/ldas/in -output s3n://s3_bucket_name/ldas/out )
Когда кластер...
2002 просмотров
schedule
01.06.2023
org.apache.hadoop.mapred.YarnChild: ошибка при запуске дочернего элемента: java.lang.OutOfMemoryError: пространство кучи Java
У меня есть быстро сжатый файл размером 90 МБ, который я пытаюсь использовать в качестве входных данных для Hadoop 2.2.0 на AMI 3.0.4 в AWS EMR.
Сразу же при попытке прочитать файл мой считыватель записей получает следующее исключение:...
10748 просмотров
schedule
15.07.2022
Сбой подпроцесса программы Hadoop Streaming с кодом 139
Я запускаю потоковую программу Hadoop (написанную на Python) через Amazon EMR, у которой возникают некоторые проблемы. Все работает нормально, когда я провожу тесты с несколькими тысячами записей и много раз тестировал программу локально, все,...
2618 просмотров
schedule
25.04.2022
Как изменить память в потоковом задании EMR Hadoop
Я пытаюсь устранить следующую ошибку в потоковом задании Hadoop на EMR.
Container [pid=30356,containerID=container_1391517294402_0148_01_000021] is running beyond physical memory limits
Я пытался искать ответы, но тот, который я нашел, не...
2042 просмотров
schedule
25.11.2022
Конфигурации Amazon Elastic Mapreduce по умолчанию
Публикуются ли Amazon настройки Hadoop по умолчанию (core-site.xml, yarn-site.xml и т. д.)? Я видел опубликованные некоторые параметры, но не общие конфигурации по умолчанию.
1413 просмотров
schedule
06.11.2022