Мне нужно установить Nutch 2.3 для EMR в указанной выше конфигурации (subj).
Сделано на локальном компьютере:
- Nutch 2.x
1.1 svn текущая версия 2.x
1.2. подготовленные скрипты:
1.2.1 плющ:
dependency org="org.apache.hadoop" name="hadoop-common" rev="2.4.0" dependency org="org.apache.hadoop" name="hadoop-mapreduce-client-core" rev="2.4.0" dependency org="org.apache.gora" name="gora" rev="0.5" dependency org="org.apache.gora" name="gora-hbase" rev="0.5"
1.2.2 default.properties:
hadoop.version=2.4.0
version=2.3-SNAPSHOT
1.3. добавлен
public int getFieldsCount() { return Field.values().length; }
в ProtocolStatus.java, ParseStatus.java, Host.java, WebPage.java.
- HBase
2.1 свн HBase 0.94.18
2.2 подготовлен для Protobuf 2.5.0, также благодаря Добромыслову [https://github.com/dobromyslov]
2.3 также сгенерировал hbase-0.94.18-hadoop-2.4.0.jar
Gora 0.5 (также тестировалась для версий 0.4, 0.6-SNAPSHOT и 0.5.3 с сайта com.argonio.gora)
Avro 1.7.6 (так же играл с версиями 1.7.4, 1.7.7)
4.1 свн
4.2 пропатчен для AVRO-813
4.3 пропатчен для AVRO-882 и откатился
4.4 исправлен, как в [1] - прокомментировал выброс исключения EOFException против
org.apache.avro.io.BinaryDecoder.ensureBounds(BinaryDecoder.java:473),
и Т. Д.
После многочисленных исключений в Nutch 2.x и Avro 1.7.6 были внесены некоторые изменения.
Nutch выглядит немного работающим, но работает нестабильно и некорректно.
Цикл (внедрение, создание, выборка, анализ, обновлениеb) пройден, но некоторые функции не работают и игнорируются.
Вроде нарушил нормальный обмен данными между Nutch и HBase (тоже с gora и avro). Некоторые поля (и / или некоторые форматы данных) читаются и записываются некорректно. F.e. многие маркеры потеряны (временно эмулируются в коде); данные в поле batchId потеряны; Нарушается и выигрыш.
Пожалуйста помоги! Я готов опубликовать все свои отличия и трассировки исключений.