hadoop启动后slave的nodemanager一段时间后自动关闭

时间:2024-03-16 21:25:22

环境:


VMWare12;CentOS7;JDK1.8;hadoop2.4
1台master,1台slave;

问题描述:


搭建的hadoop集群启动后,slave的nodemanager一段时间后自动消失,进入hadoop/logs查看nodemanager日志,发现错误为:org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.net.NoRouteToHostException: No Route to Host from slave/192.168.75.133 to master:18025 failed on socket timeout exception: java.net.NoRouteToHostException: No route to host; For more details see: http://wiki.apache.org/hadoop/NoRouteToHost

解决过程:


1 查看hosts文件是否将master和slave地址写正确:
hadoop启动后slave的nodemanager一段时间后自动关闭

可知hosts文件没有问题.

2 查看network配置文件中是否出现IPv6;
hadoop启动后slave的nodemanager一段时间后自动关闭

3 查看防火墙是否关闭:
systemctl status firewalld
hadoop启动后slave的nodemanager一段时间后自动关闭
4 发现问题:防火墙未关闭!!!
关闭防火墙:systemctl stop firewalld.service
重启集群,nodemanager正常出现。

5 总结
每次重新打开虚拟机时防火墙的状态是开启的,因此启动集群的过程应该是:
(1)启动master和slave机器;
(2)将两台机器连接网络;
(3)格式化master的namenode:hdfs namenode -format;
(4)关闭两台机器的防火墙;
(5)在master启动hadoop;
(6)验证
master:

hadoop启动后slave的nodemanager一段时间后自动关闭
slave:

hadoop启动后slave的nodemanager一段时间后自动关闭
master中打开网址:
hadoop启动后slave的nodemanager一段时间后自动关闭

hadoop启动后slave的nodemanager一段时间后自动关闭

su - zkpk
su root
cd Software/hadoop-2.4.0/sbin/start-all.sh