Определение схемы для ключа Avro в Oozie

Я новичок в уменьшении карт и Avro. Мой проект в основном имеет только функцию картографа, которая принимает текстовые данные и выводит данные Avro, и для этого я объявил свой картограф примерно так:

public class AvroMapper extends Mapper(LongWritable, Text, AvroKey<CharSequence>, NullWritable)

У меня возникают проблемы с настройкой схемы для ключа в рабочем процессе Oozie. Моя конфигурация файла Oozie:

<property>
    <name>mapred.output.key.class</name>
    <value>org.apache.avro.mapred.NullWriatable</value>
</property>
<property>
    <name>mapred.mapoutput.key.class</name>
    <value>org.apache.avro.mapred.AvroKey</value>
</property>
<property>
    <name>mapred.mapoutput.value.class</name>
    <value>org.apache.avro.mapred.NullWritable</value>
</property>
<property>
<name>mapred.output.key.comparator.class</name>
<value>org.apache.avro.mapred.AvroKeyComparator</value>
</property>
<property>
     <name>avro.schema.output.key</name>
     <value>{my JSON schema}</value>
</property>
<property>
 <name>mapreduce.inputformat.class</name>
 <value>org.apache.hadoop.mapreduce.lib.input.TextInputFormat</value>
 </property>
 <property>
   <name>mapreduce.outputformat.class</name>
       <value>org.apache.avro.mapreduce.AvroKeyOutputFormat</value>
  </property>

но все равно выдает:

java.lang.NullPointerException
at org.apache.avro.mapred.Pair.getKeySchema(Pair.java:68)
at org.apache.avro.mapred.AvroKeyComparator.setConf(AvroKeyComparator.java:39)
at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:73)
at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:133)
at org.apache.hadoop.mapred.JobConf.getOutputKeyComparator(JobConf.java:818)
at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.init(MapTask.java:836)
at org.apache.hadoop.mapred.MapTask.createSortingCollector(MapTask.java:376)
at org.apache.hadoop.mapred.MapTask.access$100(MapTask.java:85)
at org.apache.hadoop.mapred.MapTask$NewOutputCollector.<init>(MapTask.java:584)
at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:656)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:330)
at org.apache.hadoop.mapred.Child$4.run(Child.java:268)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:396)
at org.apache.ha...

Пожалуйста, подскажите, где я ошибаюсь..


person user1467245    schedule 12.02.2014    source источник


Ответы (1)


Используйте AvroMapper. и AvroReducer классы вместо этого. Мне так легче. В этом случае не забудьте использовать класс Pair и схему.

В любом случае конфигурация Oozie для Avro не тривиальна. Чтобы сэкономить ваше время, вот моя конфигурация для AvroMapper и AvroReducer:

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<configuration>
    <property>
        <name>avro.input.schema</name>
        <value>{"type":"record","name":"Pair","namespace":"org.apache.avro.mapred","fields":[... your fields ...]}</value>
    </property>
    <property>
        <name>avro.output.schema</name>
        <value>{"type":"record","name":"Pair","namespace":"org.apache.avro.mapred","fields":[... your fields ...]}</value>
    </property>
    <property>
        <name>avro.mapper</name>
        <value>your.mapper.class.Name</value>
    </property>
    <property>
        <name>avro.reducer</name>
        <value>your.reducer.class.Name</value>
    </property>
    <property>
        <name>mapred.output.key.comparator.class</name>
        <value>org.apache.avro.mapred.AvroKeyComparator</value>
    </property>
    <property>
        <name>mapred.reducer.class</name>
        <value>org.apache.avro.mapred.HadoopReducer</value>
    </property>
    <property>
        <name>mapred.output.format.class</name>
        <value>org.apache.avro.mapred.AvroOutputFormat</value>
    </property>
    <property>
        <name>mapred.mapper.class</name>
        <value>org.apache.avro.mapred.HadoopMapper</value>
    </property>
    <property>
        <name>mapred.input.format.class</name>
        <value>org.apache.avro.mapred.AvroInputFormat</value>
    </property>
    <property>
        <name>mapred.output.key.class</name>
        <value>org.apache.avro.mapred.AvroWrapper</value>
    </property>
    <property>
        <name>mapred.mapoutput.value.class</name>
        <value>org.apache.avro.mapred.AvroValue</value>
    </property>
    <property>
        <name>io.serializations</name>
        <value>org.apache.hadoop.io.serializer.WritableSerialization,org.apache.avro.mapred.AvroSerialization</value>
    </property>
    <property>
        <name>mapred.mapoutput.key.class</name>
        <value>org.apache.avro.mapred.AvroKey</value>
    </property>
</configuration>
person Viacheslav Rodionov    schedule 13.02.2014