Как получить имя файла/содержимое файла в качестве ввода ключа/значения для MAP при выполнении задания Hadoop MapReduce?

Я создаю программу для анализа файлов PDF, DOC и DOCX. Эти файлы хранятся в HDFS.

Когда я запускаю свою работу MapReduce, я хочу, чтобы функция карты имела имя файла в качестве ключа и двоичное содержимое в качестве значения. Затем я хочу создать потоковую программу чтения, которую я могу передать в библиотеку парсера PDF. Как я могу добиться того, чтобы пара ключ/значение для этапа сопоставления представляла собой имя файла/содержимое файла?

Я использую Hadoop 0.20.2

Это старый код, который запускает задание:

public static void main(String[] args) throws Exception {
 JobConf conf = new JobConf(PdfReader.class);
 conf.setJobName("pdfreader");

 conf.setOutputKeyClass(Text.class);
 conf.setOutputValueClass(IntWritable.class);

 conf.setMapperClass(Map.class);
 conf.setReducerClass(Reduce.class);

 conf.setInputFormat(TextInputFormat.class);
 conf.setOutputFormat(TextOutputFormat.class);

 FileInputFormat.setInputPaths(conf, new Path(args[0]));
 FileOutputFormat.setOutputPath(conf, new Path(args[1]));

 JobClient.runJob(conf);
}

Я знаю, что есть другие типы inputformat. Но есть ли тот, который делает именно то, что я хочу? Я нахожу документацию довольно расплывчатой. Если он есть, то как должны выглядеть типы входных данных функции Map?

Заранее спасибо!

Christophe 19.04.2011 источник

comment

Для новых читателей: обратите внимание на файлы Hadoop Archives (HAR) и Sequence, которые больше подходят для ввода в Hadoop. - Christophe 16.05.2012

Ответы (3)

arrow_upward
8
arrow_downward

Решением этой проблемы является создание собственного класса FileInputFormat, который делает это. У вас есть доступ к имени входного файла из FileSplit, который получает этот FileInputFormat (getPath). Обязательно отмените isSplitable вашего FileInputformat, чтобы всегда возвращать false.

Вам также понадобится пользовательский RecordReader, который возвращает весь файл как одно значение «Record».

Будьте осторожны при работе с файлами, которые слишком велики. Вы эффективно загрузите весь файл в ОЗУ, а по умолчанию для трекера задач доступно только 200 МБ ОЗУ.

Niels Basjes 20.04.2011

comment

Как обращаться с большими файлами? - SRIDHARAN; 15.08.2017

comment

Просто: Выделите достаточно памяти. Если у вас есть файлы, размер которых превышает максимально возможную оперативную память, то это желание просто невыполнимо. - Niels Basjes; 15.08.2017

arrow_upward
1
arrow_downward

В качестве альтернативы вашему подходу, возможно, добавьте двоичные файлы напрямую в hdfs. Затем создайте входной файл, содержащий пути dfs для всех двоичных файлов. Это можно сделать динамически, используя файловую систему Hadoop< /а> класс. Наконец, создайте преобразователь, который обрабатывает входные данные, открывая входные потоки, снова используя FileSystem.

Brent Worden 19.04.2011

comment

Привет, Брент, спасибо за твой ответ. Я собираюсь использовать его, если я не найду лучшую альтернативу! Я могу потерять функции осведомленности о стойке, поставляемые с Hadoop. Открытие имени файла dfs может означать открытие файла, который находится «далеко», в то время как другой файл может быть близко. (Мне нужно доказать масштабируемость и факторы ускорения в определенной степени) - Christophe; 19.04.2011

arrow_upward
1
arrow_downward

Вы можете использовать WholeFileInputFormat (https://code.google.com/p/hadoop-course/source/browse/HadoopSamples/src/main/java/mr/wholeFile/?r=3)

В маппере имя файла вы можете получить с помощью этой команды:

public void map(NullWritable key, BytesWritable value, Context context) throws 
IOException, InterruptedException 
{       

Path filePath= ((FileSplit)context.getInputSplit()).getPath();
String fileNameString = filePath.getName();

byte[] fileContent = value.getBytes();

}

Markovich 10.12.2013

Как получить имя файла/содержимое файла в качестве ввода ключа/значения для MAP при выполнении задания Hadoop MapReduce?

Ответы (3)

Вопросы по теме