Вопросы по теме 'mrjob'
Как получить имя входного файла в MRjob
Я пишу функцию карты, используя mrjob. Мой ввод будет поступать из файлов в каталоге на HDFS. Имена файлов содержат небольшую, но важную информацию, которой нет в самих файлах. Есть ли способ узнать (внутри функции карты) имя входного файла, из...
5867 просмотров
schedule
16.07.2022
Как я могу не индексировать список значений уменьшения?
Я использую комбинирование в Mapper в задании Map Reduce через модуль Python mrjob. Поскольку я написал функцию mapper_final, которая выдает одну пару, я уверен, что моим редукторам выдается только одна пара ключ-значение.
Однако моя функция...
4432 просмотров
schedule
01.07.2022
Как связать пользовательский файл hadoop-streaming.jar
Я пытаюсь использовать класс CombineFileInputFormat с помощью инструмента Yelp MrJob для EMR. Рабочий процесс создается с использованием потоковой передачи Hadoop, и в документации MrJob указано, что класс CombineFileInputFormat должен быть...
651 просмотров
schedule
22.02.2023
MRjob: Может ли редуктор выполнять 2 операции?
Я пытаюсь получить вероятность каждой пары ключей и значений, сгенерированной из картографа.
Итак, скажем, картограф выдает:
a, (r, 5)
a, (e, 6)
a, (w, 7)
Мне нужно добавить 5+6+7 = 18, а затем найти вероятности 5/18, 6/18, 7/18....
2969 просмотров
schedule
26.07.2023
Доступ к распределенному кешу из MrJob
Я пишу приложение для Hadoop, используя MrJob. Мне нужно использовать распределенный кеш для доступа к некоторым файлам. Я знаю, что в потоковой передаче Hadoop есть опция -files, но не знаю, как получить к ней доступ в программе.
Спасибо за вашу...
736 просмотров
schedule
12.02.2023
Входной файл для локальных заданий MRJob
Я изучаю/тестирую mrjobs на своем ноутбуке, используя пример подсчета слов.
Я могу предоставить локальный файл в качестве входных данных в командном режиме, но не знаю, как сделать то же самое из скрипта Python.
Очень ценю простой пример....
489 просмотров
schedule
30.11.2023
Управление зависимостями Python в EMR
Я отправляю код в EMR Amazon через модули mrjob/boto. у меня есть некоторые внешние зависимости python (например, numpy, boto и т. д.), и в настоящее время мне нужно загрузить исходный код пакетов python и отправить их в виде архива в поле...
1755 просмотров
schedule
29.05.2023
Как файлы данных должны быть включены в mrjob на EMR?
Я пытаюсь запустить mrjob на Amazon EMR. Я тестировал задание локально, используя встроенный бегун, но он не работает при запуске на Amazon. Я сузил ошибку до своей зависимости от внешнего файла данных zip_codes.txt . Если я бегу без этой...
3661 просмотров
schedule
20.06.2022
Модуль python mrjob не найден на виртуальной машине CDH
Я использую Mrjob для запуска кода Python в Hadoop. Я использую пакет CDH с виртуальной машиной в кластере с одним узлом. Мой mrjob работал правильно, когда я тестировал код локально, но когда я запускал кластер Hadoop, он выдавал ошибку:
No...
540 просмотров
schedule
24.07.2023
Hadoop удаляет историю MapReduce при перезапуске
Я провожу несколько тестов Hadoop, используя инструменты тестирования TestDFSIO и TeraSort. В основном я тестирую разное количество узлов данных, чтобы оценить линейность вычислительной мощности и масштабируемость узла данных.
Во время...
940 просмотров
schedule
05.01.2023
Изменение местоположения промежуточного вывода Mapreduce с помощью MRJob
Я пытаюсь запустить скрипт Python с помощью MRJob в кластере, в котором у меня нет прав администратора, и я получил ошибку, вставленную ниже. Я думаю, что происходит то, что задание пытается записать промежуточные файлы в каталог по умолчанию...
1157 просмотров
schedule
23.03.2022
Итеративные kmeans на основе mapreduce и hadoop
Я написал простой код кластеризации k-средних для Hadoop (две отдельные программы — картограф и редьюсер). Код работает с небольшим набором данных из 2d точек в моем локальном ящике. Он написан на Python, и я планирую использовать Streaming API....
1407 просмотров
schedule
16.04.2022
Каков конкретный пример синтаксиса для загрузки данных S3 в HDFS перед выполнением шагов в MRJob?
Когда я запускаю свой сценарий MRJob и использую CLI для запуска кластеров EMR для работы, я пытаюсь выяснить, как загрузить данные из S3 в HDFS в кластерах. Я хочу сделать это как часть процесса установки.
Я искал несколько мест, чтобы получить...
367 просмотров
schedule
11.12.2022
Могу ли я использовать библиотеку mrjob python для секционированных таблиц кустов?
У меня есть пользовательский доступ к серверу/кластеру hadoop, содержащему данные, которые хранятся исключительно в секционированных таблицах/файлах в улье (avro). Мне было интересно, могу ли я выполнить mapreduce с помощью python mrjob для этих...
379 просмотров
schedule
09.02.2023
Гарантируется ли с помощью MapReduce, что ВСЕ значения с одним и тем же ключом перейдут к одному и тому же редюсеру?
У меня есть проект MapReduce, над которым я работаю (в частности, я использую Python и библиотеку MrJob и планируйте использовать Amazon EMR). Вот пример, чтобы подвести итог моей проблемы:
У меня есть тысячи ГБ json-файлов, полных данных о...
1352 просмотров
schedule
03.06.2022
MRJob и python - вывод файла .csv для Reducer?
Я использую модуль MRJob для Python 2.7. Я создал класс, наследуемый от MRJob, и правильно сопоставил все с помощью унаследованной функции сопоставления.
Проблема в том, что я хотел бы, чтобы функция редуктора выводила файл .csv... вот код...
4700 просмотров
schedule
02.04.2024
Регулярные выражения в карте Python уменьшают: подсчет слов с «ñ» и гласных с ударением
Я использую регулярное выражение для управления ударными гласными и «ñ» в испанских текстах следующим образом:
WORD_REGEXP = re.compile(r"[a-zA-Záéíóúñ]+")
Хотя он отлично работает с любой строкой, когда я запускаю программу сокращения...
410 просмотров
schedule
07.09.2022
Набор данных Json-Opening Yelp Data Challenge
Меня интересует интеллектуальный анализ данных, и я пишу свою диссертацию об этом. Для своей диссертации я хочу использовать набор данных yelp data challenge, однако я не могу его открыть, так как он в формате json и весит почти 2 ГБ. На его...
8062 просмотров
schedule
15.09.2022
Почему MRJob сортирует мои ключи?
Я запускаю довольно большое задание MRJob (1 755 638 ключей), и ключи записываются в редукторы в отсортированном порядке. Это произойдет, даже если я укажу, что Hadoop должен использовать разделитель хэшей, с:
class SubClass(MRJob):...
745 просмотров
schedule
31.12.2023
Несколько входных файлов для каждого типа картографа
Я пытаюсь запустить задание, в котором каждый тип картографа получает другой входной файл. Я знаю, что есть способ сделать это с помощью Java, используя класс MultipleInputs, например:
MultipleInputs.addInputPath(job,new...
495 просмотров
schedule
07.09.2022