Не удается запустить Nutch2 на Hadoop2 (Nutch 2.x + Hadoop 2.4.0 + HBase 0.94.18 + Gora 0.5 + Avro 1.7.6)

Мне нужно установить Nutch 2.3 для EMR в указанной выше конфигурации (subj).

Сделано на локальном компьютере:

  1. Nutch 2.x

1.1 svn текущая версия 2.x

1.2. подготовленные скрипты:

1.2.1 плющ:

    dependency org="org.apache.hadoop" name="hadoop-common" rev="2.4.0"
    dependency org="org.apache.hadoop" name="hadoop-mapreduce-client-core" rev="2.4.0"
    dependency org="org.apache.gora" name="gora" rev="0.5"  
    dependency org="org.apache.gora" name="gora-hbase" rev="0.5"

1.2.2 default.properties:

hadoop.version=2.4.0
version=2.3-SNAPSHOT

1.3. добавлен

public int getFieldsCount() { return Field.values().length; }

в ProtocolStatus.java, ParseStatus.java, Host.java, WebPage.java.

  1. HBase

2.1 свн HBase 0.94.18

2.2 подготовлен для Protobuf 2.5.0, также благодаря Добромыслову [https://github.com/dobromyslov]

2.3 также сгенерировал hbase-0.94.18-hadoop-2.4.0.jar

  1. Gora 0.5 (также тестировалась для версий 0.4, 0.6-SNAPSHOT и 0.5.3 с сайта com.argonio.gora)

  2. Avro 1.7.6 (так же играл с версиями 1.7.4, 1.7.7)

4.1 свн

4.2 пропатчен для AVRO-813

4.3 пропатчен для AVRO-882 и откатился

4.4 исправлен, как в [1] - прокомментировал выброс исключения EOFException против

org.apache.avro.io.BinaryDecoder.ensureBounds(BinaryDecoder.java:473),

и Т. Д.

После многочисленных исключений в Nutch 2.x и Avro 1.7.6 были внесены некоторые изменения.

Nutch выглядит немного работающим, но работает нестабильно и некорректно.

Цикл (внедрение, создание, выборка, анализ, обновлениеb) пройден, но некоторые функции не работают и игнорируются.

Вроде нарушил нормальный обмен данными между Nutch и HBase (тоже с gora и avro). Некоторые поля (и / или некоторые форматы данных) читаются и записываются некорректно. F.e. многие маркеры потеряны (временно эмулируются в коде); данные в поле batchId потеряны; Нарушается и выигрыш.

Пожалуйста помоги! Я готов опубликовать все свои отличия и трассировки исключений.

[1] http://mail-archives.apache.org/mod_mbox/nutch-user/201409.mbox/%3cCAEmTxX9HrRM00SxerFAdRdZy=wVAd9xCchDTuLaxPQ=wi0QEsw@mail.gmail.com%3ofollow


person tmsprgl    schedule 03.10.2014    source источник


Ответы (1)


Мы решили проблему с EOFExceptions и нестабильностью, установив старое (т.е. hadoop-1.2.0) значение для свойства io.serializations в conf / nutch-site.xml:

<property>
  <name>io.serializations</name>
  <value>org.apache.hadoop.io.serializer.WritableSerialization</value>
  <description>A list of serialization classes that can be used for
  obtaining serializers and deserializers.</description>
</property>

И оказалось, что прошивать Авро не нужно.

person Sergey Weiss    schedule 29.10.2014