Вопросы по теме 'cascalog'

Как объединить небольшие файлы на S3, сгенерированные EMR, с тысячами редукторов
Мое задание cascalog EMR сгенерировало тысячи небольших файлов в корзинах S3. Он генерирует такое же количество файлов, как и количество редукторов, которые я использовал. Сброс всех этих крошечных файлов занимает несколько минут. Интересно, есть...
1210 просмотров

Кложур + Лемур
Я пытаюсь выполнить многоэтапную работу, используя lemur + clojure. У меня проблема с передачей нескольких входных данных в качестве аргумента в clojure+lemur. В качестве первого шага для моей работы я пытаюсь запустить emr Streaming Job....
237 просмотров
schedule 04.12.2023

Предоставление значения по умолчанию для левых внешних соединений
Мне было интересно, как лучше всего указать значение по умолчанию при выполнении внешнего соединения в cascalog для поля, которое может быть нулевым. (def example-query (<- [?id ?fname ?lname !days-active] (users :> ?id ?fname...
192 просмотров
schedule 21.07.2022

clojure: параллельная обработка с использованием нескольких компьютеров
у меня есть 500 каталогов и 1000 файлов (каждый около 3-4 тыс. строк) для каждого каталога. я хочу запустить одну и ту же программу clojure (уже написанную) для каждого из этих файлов. у меня 4 восьмиядерных сервера. как лучше распределить...
357 просмотров

IllegalArgumentException Должен быть указан параметр BucketName. com.amazonaws.services.s3.AmazonS3Client.rejectNull
Запуск Clojure jar в кластере AWS-EMR с использованием (hfs-textline) и получение: IllegalArgumentException Должен быть указан параметр BucketName. com.amazonaws.services.s3.AmazonS3Client.rejectNull`.
7722 просмотров
schedule 10.12.2022