кластер hadoop с активным резервным именем node + пробел в журнале редактирования

у нас есть кластер амбари, версия HDP 2.6.5

кластер включает управление двумя name-узлами (один активен, а вторичный - резервный)

и 65 машин с датанодом

у нас есть проблема с резервным name-node, который не запущен, и из журналов namenode мы можем увидеть следующее

2021-01-01 15:19:43,269 ERROR namenode.NameNode (NameNode.java:main(1783)) - Failed to start namenode.
java.io.IOException: There appears to be a gap in the edit log.  We expected txid 90247527115, but got txid 90247903412.
        at org.apache.hadoop.hdfs.server.namenode.MetaRecoveryContext.editLogLoaderPrompt(MetaRecoveryContext.java:94)
        at org.apache.hadoop.hdfs.server.namenode.FSEditLogLoader.loadEditRecords(FSEditLogLoader.java:215)
        at org.apache.hadoop.hdfs.server.namenode.FSEditLogLoader.loadFSEdits(FSEditLogLoader.java:143)
        at org.apache.hadoop.hdfs.server.namenode.FSImage.loadEdits(FSImage.java:838)
        at org.apache.hadoop.hdfs.server.namenode.FSImage.loadFSImage(FSImage.java:693)
        at org.apache.hadoop.hdfs.server.namenode.FSImage.recoverTransitionRead(FSImage.java:289)
        at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.loadFSImage(FSNamesystem.java:1073)
        at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.loadFromDisk(FSNamesystem.java:723)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.loadNamesystem(NameNode.java:697)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.initialize(NameNode.java:761)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:1001)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:985)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1710)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1778)

пока активный узел имени активен, но резервный узел имени не работает

введите описание изображения здесь

относительно

java.io.IOException: There appears to be a gap in the edit log.  We expected txid 90247527115, but got txid 90247903412.

какое предпочтительное решение для решения этой проблемы?


person jessica    schedule 19.01.2021    source источник


Ответы (1)


Для этого есть много причин, однако проверьте это статья, это должно помочь.

Выполняйте точные шаги в точном порядке, указанном в статье.

Короче говоря, ошибка означает, что матаданные namenode повреждены / повреждены.

person rikamamanus    schedule 21.01.2021
comment
если журналы редактирования fsimage повреждены, мы должны запустить команду - hadoop namenode -recover, что вы думаете? - person jessica; 21.01.2021