Вопросы по теме 'hadoop2'
Установка Hadoop в облаке Amazon
Я новичок в Hadoop, мне нравится входить в административную строку Hadoop, поэтому я изучил основы Hadoop и попытался установить Hadoop в режиме псевдораспространения, успешно установил и запустил несколько базовых примеров, теперь мне нужно еще...
82 просмотров
schedule
17.05.2022
Не удается запустить задание в кластере Hadoop. запускается только с использованием LocalJobRunner
Я отправил задание MR с помощью команды hadoop jar со следующей командой на CDH5 Beta 2.
hadoop jar ./hadoop-examples-0.0.1-SNAPSHOT.jar com.aravind.learning.hadoop.mapred.join.ReduceSideJoinDriver tech_talks/users.csv tech_talks/ratings.csv...
5126 просмотров
schedule
12.07.2023
Получите идентификатор приложения во время выполнения задания MapReduce.
Есть ли способ получить идентификатор приложения при запуске, например, примера wordcount с помощью команды yarn ?
Я хочу инициировать задание из другого процесса с помощью команды yarn и отслеживать состояние задания через YARN REST API....
12611 просмотров
schedule
01.04.2024
Установка hadoop2.2.0 в Linux (NameNode не запускается)
Я пытаюсь запустить кластер Hadoop с одним узлом на своей машине со следующей конфигурацией:
inux livingstream 3.2.0-29-generic #46-Ubuntu SMP Fri Jul 27 17:03:23 UTC 2012 x86_64 x86_64 x86_64 GNU/Linux
Однако я могу отформатировать namenode...
439 просмотров
schedule
02.05.2024
Ошибка при запуске namenode в hadoop 2.4.1
Когда я пытаюсь запустить dfs, используя:
start-dfs.sh
Я получаю сообщение об ошибке:
14/07/03 11:03:21 WARN util.NativeCodeLoader: Unable to load
native-hadoop library for your platform... using builtin-java classes
where applicable...
8215 просмотров
schedule
04.06.2022
Hadoop V2: отключить перемешивание/сортировку?
Мне было интересно, есть ли способ отключить перетасовку/сортировку на этапе карты задания? Моя работа не требует фазы сокращения, поэтому мне не нужны перемешивание и сортировка.
Я использую Hadoop версии 2.2.0
Спасибо
738 просмотров
schedule
11.04.2023
файлы разбиты на блоки для хранения в HDFS?
Я понимаю, что блочная система в HDFS — это логический раздел поверх базовой файловой системы. Но как файл извлекается, когда я запускаю команду cat .
Допустим, у меня есть файл размером 1 ГБ. Мой размер блока HDFS по умолчанию составляет 64...
5385 просмотров
schedule
25.12.2022
Общие сведения о функциональности моментальных снимков Hadoop
Я пытаюсь понять механизм моментального снимка Hadoop ( http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsSnapshots.html ). К сожалению, на официальном сайте apache очень мало информации, поэтому пишите сюда.
Я попробовал...
2421 просмотров
schedule
10.09.2022
Как масштабировать кластер AWS EMR с 1 главным и 2 основными узлами с помощью автоматического масштабирования AWS? Есть способ?
Я реализовал кластер с использованием AWS EMR. У меня есть мастер ndoe с двумя основными узлами с действием начальной загрузки hadoop. Теперь я хотел бы использовать автоматическое масштабирование и динамически регулировать размер кластера в...
649 просмотров
schedule
03.05.2022
пряжа не соблюдает пряжу.nodemanager.resource.cpu-vcores
Я использую Hadoop-2.4.0 , и конфигурация моей системы — 24 ядра, 96 ГБ ОЗУ.
Я использую следующие конфиги
mapreduce.map.cpu.vcores=1
yarn.nodemanager.resource.cpu-vcores=10
yarn.scheduler.minimum-allocation-vcores=1...
10151 просмотров
schedule
21.08.2022
Запустить неопределенное ожидание с запросом на отправку выходных местоположений карты для перемешивания
Мои рабочие места часто зависают с таким сообщением:
14/09/01 00:32:18 INFO spark.MapOutputTrackerMasterActor: Asked to send map output locations for shuffle 0 to spark@*:37619
Было бы здорово, если бы кто-нибудь объяснил, что делает Spark,...
1359 просмотров
schedule
17.10.2023
Количество сплитов и картографических задач в хаупе
Я новичок в программировании Map Reduce, я написал свой алгоритм на python, и мне нужно запустить «n» экземпляров карты одной и той же программы (мой алгоритм) в наборе данных «n». Поскольку мой код написан на питоне, я использую для своего кода...
3113 просмотров
schedule
07.09.2023
Запуск заданий с использованием кластера EMR и файлов s3 из другой учетной записи
Я хотел бы знать, есть ли способ получить доступ к файлам jar и местоположению ввода и вывода из s3 другой учетной записи. У меня есть кластер EMR, работающий в учетной записи 1. Я хочу получить доступ к расположению файлов и jar из s3 учетной записи...
2346 просмотров
schedule
06.08.2022
Как создать частную подсеть с помощью AWS java SDK
Я могу создать подсеть в моем vpc. Но это общедоступная подсеть. Однако я хотел бы создать частную подсеть, связанную с моим VPC. Как я мог этого добиться. Спасибо.
частная статическая подсеть createSubnet (AmazonEC2 ec2, String vpcId, String...
436 просмотров
schedule
15.07.2023
namenode не подходит для работы с пряжей Hadoop
Я использую Hadoop YARN на Ubuntu. Я настроил каталог hadoop (а также каталоги datanode и namenode) в каталогах /usr/local. Всякий раз, когда я запускаю start-dfs.sh, namenode не появляется - сообщение на экране жалуется на отсутствие файла...
449 просмотров
schedule
20.07.2022
Планирование задач с искрой
Я запускаю довольно большую задачу в своем кластере из 4 узлов. Я читаю около 4 ГБ отфильтрованных данных из одной таблицы и запускаю обучение и прогнозирование Naïve Baye. У меня есть сервер региона HBase, работающий на одной машине, которая...
1259 просмотров
schedule
21.05.2022
Не удается запустить Nutch2 на Hadoop2 (Nutch 2.x + Hadoop 2.4.0 + HBase 0.94.18 + Gora 0.5 + Avro 1.7.6)
Мне нужно установить Nutch 2.3 для EMR в указанной выше конфигурации (subj).
Сделано на локальном компьютере:
Nutch 2.x
1.1 svn текущая версия 2.x
1.2. подготовленные скрипты:
1.2.1 плющ:
dependency org="org.apache.hadoop"...
914 просмотров
schedule
18.10.2022
Используем ли мы RPC или SSH для межпроцессного взаимодействия в Hadoop?
Читая четвертую главу книги Полное руководство по Hadoop , я нашел следующие предложения:
In Hadoop, interprocess communication between nodes in the system is implemented using remote procedure calls (RPCs). The RPC protocol uses serialization to...
1721 просмотров
schedule
08.02.2023
Ошибка YARN JobHistory: сбой перенаправления для контейнера
Недавно мы развернули YARN с CDH 5 (2.3.0-cdh5.1.3), в кластере уже запущен файл, также выполняются задания. Но мы не можем получить доступ к журналам из пользовательского интерфейса диспетчера ресурсов, если задание завершено (УСПЕШНО / НЕ...
1650 просмотров
schedule
07.10.2023
Как отправить задание потоковой передачи Hadoop и проверить историю выполнения с помощью Hadoop 2.x
Я новичок в Hadoop. В Hadoop 1.X я могу отправить потоковое задание Hadoop с главного узла и проверить результат и время выполнения в сети namenode.
Ниже приведен пример кода для потоковой передачи Hadoop в Hadoop 1.X:
$HADOOP_HOME/bin/hadoop...
364 просмотров
schedule
15.09.2022