Вопросы по теме 'mrjob'

Как получить имя входного файла в MRjob
Я пишу функцию карты, используя mrjob. Мой ввод будет поступать из файлов в каталоге на HDFS. Имена файлов содержат небольшую, но важную информацию, которой нет в самих файлах. Есть ли способ узнать (внутри функции карты) имя входного файла, из...
5867 просмотров
schedule 16.07.2022

Как я могу не индексировать список значений уменьшения?
Я использую комбинирование в Mapper в задании Map Reduce через модуль Python mrjob. Поскольку я написал функцию mapper_final, которая выдает одну пару, я уверен, что моим редукторам выдается только одна пара ключ-значение. Однако моя функция...
4432 просмотров
schedule 01.07.2022

Как связать пользовательский файл hadoop-streaming.jar
Я пытаюсь использовать класс CombineFileInputFormat с помощью инструмента Yelp MrJob для EMR. Рабочий процесс создается с использованием потоковой передачи Hadoop, и в документации MrJob указано, что класс CombineFileInputFormat должен быть...
651 просмотров
schedule 22.02.2023

MRjob: Может ли редуктор выполнять 2 операции?
Я пытаюсь получить вероятность каждой пары ключей и значений, сгенерированной из картографа. Итак, скажем, картограф выдает: a, (r, 5) a, (e, 6) a, (w, 7) Мне нужно добавить 5+6+7 = 18, а затем найти вероятности 5/18, 6/18, 7/18....
2969 просмотров
schedule 26.07.2023

Доступ к распределенному кешу из MrJob
Я пишу приложение для Hadoop, используя MrJob. Мне нужно использовать распределенный кеш для доступа к некоторым файлам. Я знаю, что в потоковой передаче Hadoop есть опция -files, но не знаю, как получить к ней доступ в программе. Спасибо за вашу...
736 просмотров
schedule 12.02.2023

Входной файл для локальных заданий MRJob
Я изучаю/тестирую mrjobs на своем ноутбуке, используя пример подсчета слов. Я могу предоставить локальный файл в качестве входных данных в командном режиме, но не знаю, как сделать то же самое из скрипта Python. Очень ценю простой пример....
489 просмотров
schedule 30.11.2023

Управление зависимостями Python в EMR
Я отправляю код в EMR Amazon через модули mrjob/boto. у меня есть некоторые внешние зависимости python (например, numpy, boto и т. д.), и в настоящее время мне нужно загрузить исходный код пакетов python и отправить их в виде архива в поле...
1755 просмотров

Как файлы данных должны быть включены в mrjob на EMR?
Я пытаюсь запустить mrjob на Amazon EMR. Я тестировал задание локально, используя встроенный бегун, но он не работает при запуске на Amazon. Я сузил ошибку до своей зависимости от внешнего файла данных zip_codes.txt . Если я бегу без этой...
3661 просмотров
schedule 20.06.2022

Модуль python mrjob не найден на виртуальной машине CDH
Я использую Mrjob для запуска кода Python в Hadoop. Я использую пакет CDH с виртуальной машиной в кластере с одним узлом. Мой mrjob работал правильно, когда я тестировал код локально, но когда я запускал кластер Hadoop, он выдавал ошибку: No...
540 просмотров
schedule 24.07.2023

Hadoop удаляет историю MapReduce при перезапуске
Я провожу несколько тестов Hadoop, используя инструменты тестирования TestDFSIO и TeraSort. В основном я тестирую разное количество узлов данных, чтобы оценить линейность вычислительной мощности и масштабируемость узла данных. Во время...
940 просмотров
schedule 05.01.2023

Изменение местоположения промежуточного вывода Mapreduce с помощью MRJob
Я пытаюсь запустить скрипт Python с помощью MRJob в кластере, в котором у меня нет прав администратора, и я получил ошибку, вставленную ниже. Я думаю, что происходит то, что задание пытается записать промежуточные файлы в каталог по умолчанию...
1157 просмотров

Итеративные kmeans на основе mapreduce и hadoop
Я написал простой код кластеризации k-средних для Hadoop (две отдельные программы — картограф и редьюсер). Код работает с небольшим набором данных из 2d точек в моем локальном ящике. Он написан на Python, и я планирую использовать Streaming API....
1407 просмотров
schedule 16.04.2022

Каков конкретный пример синтаксиса для загрузки данных S3 в HDFS перед выполнением шагов в MRJob?
Когда я запускаю свой сценарий MRJob и использую CLI для запуска кластеров EMR для работы, я пытаюсь выяснить, как загрузить данные из S3 в HDFS в кластерах. Я хочу сделать это как часть процесса установки. Я искал несколько мест, чтобы получить...
367 просмотров
schedule 11.12.2022

Могу ли я использовать библиотеку mrjob python для секционированных таблиц кустов?
У меня есть пользовательский доступ к серверу/кластеру hadoop, содержащему данные, которые хранятся исключительно в секционированных таблицах/файлах в улье (avro). Мне было интересно, могу ли я выполнить mapreduce с помощью python mrjob для этих...
379 просмотров
schedule 09.02.2023

Гарантируется ли с помощью MapReduce, что ВСЕ значения с одним и тем же ключом перейдут к одному и тому же редюсеру?
У меня есть проект MapReduce, над которым я работаю (в частности, я использую Python и библиотеку MrJob и планируйте использовать Amazon EMR). Вот пример, чтобы подвести итог моей проблемы: У меня есть тысячи ГБ json-файлов, полных данных о...
1352 просмотров
schedule 03.06.2022

MRJob и python - вывод файла .csv для Reducer?
Я использую модуль MRJob для Python 2.7. Я создал класс, наследуемый от MRJob, и правильно сопоставил все с помощью унаследованной функции сопоставления. Проблема в том, что я хотел бы, чтобы функция редуктора выводила файл .csv... вот код...
4700 просмотров
schedule 02.04.2024

Регулярные выражения в карте Python уменьшают: подсчет слов с «ñ» и гласных с ударением
Я использую регулярное выражение для управления ударными гласными и «ñ» ​​в испанских текстах следующим образом: WORD_REGEXP = re.compile(r"[a-zA-Záéíóúñ]+") Хотя он отлично работает с любой строкой, когда я запускаю программу сокращения...
410 просмотров
schedule 07.09.2022

Набор данных Json-Opening Yelp Data Challenge
Меня интересует интеллектуальный анализ данных, и я пишу свою диссертацию об этом. Для своей диссертации я хочу использовать набор данных yelp data challenge, однако я не могу его открыть, так как он в формате json и весит почти 2 ГБ. На его...
8062 просмотров
schedule 15.09.2022

Почему MRJob сортирует мои ключи?
Я запускаю довольно большое задание MRJob (1 755 638 ключей), и ключи записываются в редукторы в отсортированном порядке. Это произойдет, даже если я укажу, что Hadoop должен использовать разделитель хэшей, с: class SubClass(MRJob):...
745 просмотров
schedule 31.12.2023

Несколько входных файлов для каждого типа картографа
Я пытаюсь запустить задание, в котором каждый тип картографа получает другой входной файл. Я знаю, что есть способ сделать это с помощью Java, используя класс MultipleInputs, например: MultipleInputs.addInputPath(job,new...
495 просмотров
schedule 07.09.2022