Вопросы по теме 'hadoop2'

Установка Hadoop в облаке Amazon
Я новичок в Hadoop, мне нравится входить в административную строку Hadoop, поэтому я изучил основы Hadoop и попытался установить Hadoop в режиме псевдораспространения, успешно установил и запустил несколько базовых примеров, теперь мне нужно еще...
82 просмотров
schedule 17.05.2022

Не удается запустить задание в кластере Hadoop. запускается только с использованием LocalJobRunner
Я отправил задание MR с помощью команды hadoop jar со следующей командой на CDH5 Beta 2. hadoop jar ./hadoop-examples-0.0.1-SNAPSHOT.jar com.aravind.learning.hadoop.mapred.join.ReduceSideJoinDriver tech_talks/users.csv tech_talks/ratings.csv...
5126 просмотров
schedule 12.07.2023

Получите идентификатор приложения во время выполнения задания MapReduce.
Есть ли способ получить идентификатор приложения при запуске, например, примера wordcount с помощью команды yarn ? Я хочу инициировать задание из другого процесса с помощью команды yarn и отслеживать состояние задания через YARN REST API....
12611 просмотров
schedule 01.04.2024

Установка hadoop2.2.0 в Linux (NameNode не запускается)
Я пытаюсь запустить кластер Hadoop с одним узлом на своей машине со следующей конфигурацией: inux livingstream 3.2.0-29-generic #46-Ubuntu SMP Fri Jul 27 17:03:23 UTC 2012 x86_64 x86_64 x86_64 GNU/Linux Однако я могу отформатировать namenode...
439 просмотров
schedule 02.05.2024

Ошибка при запуске namenode в hadoop 2.4.1
Когда я пытаюсь запустить dfs, используя: start-dfs.sh Я получаю сообщение об ошибке: 14/07/03 11:03:21 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable...
8215 просмотров
schedule 04.06.2022

Hadoop V2: отключить перемешивание/сортировку?
Мне было интересно, есть ли способ отключить перетасовку/сортировку на этапе карты задания? Моя работа не требует фазы сокращения, поэтому мне не нужны перемешивание и сортировка. Я использую Hadoop версии 2.2.0 Спасибо
738 просмотров
schedule 11.04.2023

файлы разбиты на блоки для хранения в HDFS?
Я понимаю, что блочная система в HDFS — это логический раздел поверх базовой файловой системы. Но как файл извлекается, когда я запускаю команду cat . Допустим, у меня есть файл размером 1 ГБ. Мой размер блока HDFS по умолчанию составляет 64...
5385 просмотров
schedule 25.12.2022

Общие сведения о функциональности моментальных снимков Hadoop
Я пытаюсь понять механизм моментального снимка Hadoop ( http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsSnapshots.html ). К сожалению, на официальном сайте apache очень мало информации, поэтому пишите сюда. Я попробовал...
2421 просмотров
schedule 10.09.2022

Как масштабировать кластер AWS EMR с 1 главным и 2 основными узлами с помощью автоматического масштабирования AWS? Есть способ?
Я реализовал кластер с использованием AWS EMR. У меня есть мастер ndoe с двумя основными узлами с действием начальной загрузки hadoop. Теперь я хотел бы использовать автоматическое масштабирование и динамически регулировать размер кластера в...
649 просмотров

пряжа не соблюдает пряжу.nodemanager.resource.cpu-vcores
Я использую Hadoop-2.4.0 , и конфигурация моей системы — 24 ядра, 96 ГБ ОЗУ. Я использую следующие конфиги mapreduce.map.cpu.vcores=1 yarn.nodemanager.resource.cpu-vcores=10 yarn.scheduler.minimum-allocation-vcores=1...
10151 просмотров
schedule 21.08.2022

Запустить неопределенное ожидание с запросом на отправку выходных местоположений карты для перемешивания
Мои рабочие места часто зависают с таким сообщением: 14/09/01 00:32:18 INFO spark.MapOutputTrackerMasterActor: Asked to send map output locations for shuffle 0 to spark@*:37619 Было бы здорово, если бы кто-нибудь объяснил, что делает Spark,...
1359 просмотров
schedule 17.10.2023

Количество сплитов и картографических задач в хаупе
Я новичок в программировании Map Reduce, я написал свой алгоритм на python, и мне нужно запустить «n» экземпляров карты одной и той же программы (мой алгоритм) в наборе данных «n». Поскольку мой код написан на питоне, я использую для своего кода...
3113 просмотров

Запуск заданий с использованием кластера EMR и файлов s3 из другой учетной записи
Я хотел бы знать, есть ли способ получить доступ к файлам jar и местоположению ввода и вывода из s3 другой учетной записи. У меня есть кластер EMR, работающий в учетной записи 1. Я хочу получить доступ к расположению файлов и jar из s3 учетной записи...
2346 просмотров

Как создать частную подсеть с помощью AWS java SDK
Я могу создать подсеть в моем vpc. Но это общедоступная подсеть. Однако я хотел бы создать частную подсеть, связанную с моим VPC. Как я мог этого добиться. Спасибо. частная статическая подсеть createSubnet (AmazonEC2 ec2, String vpcId, String...
436 просмотров

namenode не подходит для работы с пряжей Hadoop
Я использую Hadoop YARN на Ubuntu. Я настроил каталог hadoop (а также каталоги datanode и namenode) в каталогах /usr/local. Всякий раз, когда я запускаю start-dfs.sh, namenode не появляется - сообщение на экране жалуется на отсутствие файла...
449 просмотров
schedule 20.07.2022

Планирование задач с искрой
Я запускаю довольно большую задачу в своем кластере из 4 узлов. Я читаю около 4 ГБ отфильтрованных данных из одной таблицы и запускаю обучение и прогнозирование Naïve Baye. У меня есть сервер региона HBase, работающий на одной машине, которая...
1259 просмотров
schedule 21.05.2022

Не удается запустить Nutch2 на Hadoop2 (Nutch 2.x + Hadoop 2.4.0 + HBase 0.94.18 + Gora 0.5 + Avro 1.7.6)
Мне нужно установить Nutch 2.3 для EMR в указанной выше конфигурации (subj). Сделано на локальном компьютере: Nutch 2.x 1.1 svn текущая версия 2.x 1.2. подготовленные скрипты: 1.2.1 плющ: dependency org="org.apache.hadoop"...
914 просмотров
schedule 18.10.2022

Используем ли мы RPC или SSH для межпроцессного взаимодействия в Hadoop?
Читая четвертую главу книги Полное руководство по Hadoop , я нашел следующие предложения: In Hadoop, interprocess communication between nodes in the system is implemented using remote procedure calls (RPCs). The RPC protocol uses serialization to...
1721 просмотров
schedule 08.02.2023

Ошибка YARN JobHistory: сбой перенаправления для контейнера
Недавно мы развернули YARN с CDH 5 (2.3.0-cdh5.1.3), в кластере уже запущен файл, также выполняются задания. Но мы не можем получить доступ к журналам из пользовательского интерфейса диспетчера ресурсов, если задание завершено (УСПЕШНО / НЕ...
1650 просмотров

Как отправить задание потоковой передачи Hadoop и проверить историю выполнения с помощью Hadoop 2.x
Я новичок в Hadoop. В Hadoop 1.X я могу отправить потоковое задание Hadoop с главного узла и проверить результат и время выполнения в сети namenode. Ниже приведен пример кода для потоковой передачи Hadoop в Hadoop 1.X: $HADOOP_HOME/bin/hadoop...
364 просмотров
schedule 15.09.2022