hadoop datanode启动失败

问题导读：

1、Hadoop出现问题时，该如何入手查看问题？
2、datanode无法启动，我们该怎么解决？
3、如何动态加入DataNode或TaskTracker？

一、问题描述
当我多次格式化文件系统时，如

root@localhost:/usr/local/hadoop-1.0.# bin/hadoop namenode -format

复制代码

会出现datanode无法启动，查看日志，发现错误为：

-- ::, ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs in /home/gqy/hadoop/data: namenode namespaceID = ; datanode namespaceID =

二、问题产生原因
当我们执行文件系统格式化时，会在namenode数据文件夹（即配置文件中dfs.name.dir在本地系统的路径）中保存一个current/VERSION文件，记录namespaceID，标识了所格式化的 namenode的版本。如果我们频繁的格式化namenode，那么datanode中保存（即配置文件中dfs.data.dir在本地系统的路径）的current/VERSION文件只是你第一次格式化时保存的namenode的ID，因此就会造成datanode与namenode之间的id不一致。

三、解决办法
把配置文件中dfs.data.dir在本地系统的路径下的current/VERSION中的namespaceID改为与namenode一样。

如果大家在安装的时候遇到问题，或者按步骤安装完后却不能运行Hadoop，那么建议仔细查看日志信息，Hadoop记录了详尽的日志信息，日志文件保存在logs文件夹内。
无论是启动，还是以后会经常用到的MapReduce中的每一个job，以及HDFS等相关信息，Hadoop均存有日志文件以供分析。
例如：
NameNode和DataNode的namespaceID不一致，这个错误是很多人在安装时会遇到的，日志信息为：

java.io.IOException: Incompatible namespaceIDs in /root/tmp/dfs/data:

NameNode namespaceID = ; DataNode namespaceID =

若HDFS一直没有启动，读者可以查询日志，并通过日志进行分析，以上提示信息显示了NameNode和DataNode的namespaceID不一致。
这个问题一般是由于两次或两次以上的格式化NameNode造成的，有两种方法可以解决，第一种方法是删除DataNode的所有资料（及将集群中每个datanode的/hdfs/data/current中的VERSION删掉，然后执行hadoop namenode -format重启集群，错误消失。<推荐>）；第二种方法是修改每个DataNode的namespaceID（位于/hdfs/data/current/VERSION文件中）<优先>或修改NameNode的namespaceID（位于/hdfs/name/current/VERSION文件中），使其一致。
下面这两种方法在实际应用中也可能会用到。
1）重启坏掉的DataNode或JobTracker。当Hadoop集群的某单个节点出现问题时，一般不必重启整个系统，只须重启这个节点，它会自动连入整个集群。
在坏死的节点上输入如下命令即可：

bin/Hadoop-daemon.sh start DataNode

bin/Hadoop-daemon.sh start jobtracker

2）动态加入DataNode或TaskTracker。这个命令允许用户动态将某个节点加入集群中。

bin/Hadoop-daemon.sh --config ./conf start DataNode

bin/Hadoop-daemon.sh --config ./conf start tasktracker

秒客网

hadoop datanode启动失败

相关文章