GPFS集群搭建问题整理

时间:2024-04-09 19:23:45

Error 1.      创建GPFS集群时遇到问题,

mmcrcluster: Performing preliminary nodeverification ...
mmcrcluster: Processing quorum and other critical nodes ...
node1: authentication refresh for node 2 (node2) failed (err 79)
node1: authentication initialization failed (err 79)
node1: ccr server nodes to be initialized:
node1: 1 172.16.*.*:1191 node1
node1: 2 172.16.*.*:1191 node2
node2: authentication refresh for node 1 (node1) failed (err 79)
node2: authentication initialization failed (err 79)
node2: ccr server nodes to be initialized:
node2: 1 172.16.*.*:1191 node1
node2: 2 172.16.*.*:1191 node2
mmcrcluster: Processing quorum and other critical nodes ...
mmcrcluster: Removing GPFS cluster files from the nodes in the cluster . . .
mmcrcluster: Command failed. Examine previous error messages to determinecause.

 

解决方法:关闭防火墙,

systemctl stop firewalld.service #停止firewall
systemctl disable firewalld.service #禁止firewall开机启动
firewall-cmd --state #查看默认防火墙状态(关闭后显示notrunning,开启后显示running)

 

rpm -qa|grep iptables#查看iptables是否安装

systemctl status iptables#查看iptables状态

Error 2.      启动GPFS集群失败,执行完mmstartup –a命令后,通过mmgetstate –a查看节点状态一直为down,查看日志(GPFS日志路径:/var/adm/ras),内容为:

Unloading modules from/lib/modules/3.10.0-514.26.2.el7.x86_64/extra

runmmfs: The /lib/modules/3.10.0-514.26.2.el7.x86_64/extra/mmfslinux.kokernel extension does not exist.

runmmfs: Unable to verify kernel/moduleconfiguration.

Loading modules from/lib/modules/3.10.0-514.26.2.el7.x86_64/extra

runmmfs: The/lib/modules/3.10.0-514.26.2.el7.x86_64/extra/mmfslinux.ko kernel extensiondoes not exist.

runmmfs: Unable to verify kernel/moduleconfiguration.

date runmmfs: error inloading or unloading the mmfs kernel extension

date runmmfs: stopping GPFS

解决方法:重新编译GPFS文件

查看GPFS配置文件,cat /usr/lpp/mmfs/src/config/env.mcr,

GPFS集群搭建问题整理

发现目录路径不完整,重新编辑vi /usr/lpp/mmfs/src/config/env.mcr,

GPFS集群搭建问题整理

:wq保存退出,之后重新执行安装过程中的编译操作,

cd /usr/lpp/mmfs/src,

make LINUX_DISTRIBUTION=REDHAT_AS_LINUX Autoconfig,(执行完这个操作后上述的env.mcr文件中的build又不见了,还待研究)

make World; make InstallImages; make rpm(只要这个编译过程中不出现错误提示,就不需要再去修改配置文件)

cd /root/rpmbuild/RPMS/x86_64/,进入该目录并执行rpm-ivh gpfs.gplbin-().rpm

接下来启动**全部节点,mmstartup –a,

GPFS集群搭建问题整理

查看全部节点状态,mmgetstate –a,

GPFS集群搭建问题整理

Error 3.      在配置服务器之间免密登录时出错,

在执行命令ssh zyw2 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys时出错,提示信息为ssh: Could not resolve hostname zyw2: Name orservice not known

在执行命令scp ~/.ssh/authorized_keyszyw2:~/.ssh/authorized_keys时出错,提示信息为ssh: Could notresolve hostname zyw2: Name or service not knownlost connection

解决方法:以上两种出错情况,都是因为没有在hosts文件中配置主机名,导致无法识别,所以只需要在etc目录下的hosts文件中添加对应的主机就行了,格式如图:

GPFS集群搭建问题整理

Error 4.      Linux上使用yum安装rpm包报错,内容为:

GPFS集群搭建问题整理

查找发现是DNS服务器错误,

解决方法:修改/etc/resolv.conf,添加nameserver

GPFS集群搭建问题整理

Error 5.      Linux上执行make LINUX_DISTRIBUTION=REDHAT_AS_LINUX Autoconfig报错,内容为:Cannot find a valid kernel header file. One of these files should exist.
      /lib/modules/3.10.0-327.el7.x86_64/build/include/linux/version.h
      /usr/src/linux-3.10.0-327.el7.x86_64/include/linux/version.h
      /usr/src/kernels/3.10.0-327.el7.x86_64/include/generated/uapi/linux/version.h
      /lib/modules/3.10.0-327.el7.x86_64/build/include/generated/uapi/linux/version.h

GPFS集群搭建问题整理

原因:输入指令查看当前使用的内核:uname –r

GPFS集群搭建问题整理

         然后输入指令查看当前系统中内核版本:rpm –qa|grep kernel

         GPFS集群搭建问题整理

发现上图中划红线的两个软件与当前所使用的内核版本不符,这就是导致找不到头文件的原因。

解决方法:在网上下载对应版本的相应rpm包,

GPFS集群搭建问题整理

输入指令,强制安装这两个文件:rpm –I --force *.rpm,之后执行编译时就没有问题了。(若不强制安装,系统会因为当前693的版本比327的版本更高而不安装这两个rpm