clusterware启动顺序——CSS

时间:2023-03-09 09:23:58
clusterware启动顺序——CSS

CSS层面

1.ocssd.bin守护进程

该层面最主要的工作就是启动ocssd.bin守护进程。使本地节点能够成功地加入集群。ocssd.bin守护进程的启动过程可以通过以下的图形进行描述。

clusterware启动顺序——CSS

:::::集群私网通信出现了问题,这导致ocssd.bin无法和远程节点通信。

对应的解决办法如下:

方法:确保:确保:确保:在操作系统基本重新启动gpicd.bin守护进程(例如:kill -9 <ospid>):确保集群私网能够正常工作。

2.启动其他依赖于ocssd的集群初始化资源">

(">1)">ASM实例">

))根据)本地)挂载:::由于某些操作系统的参数配置错误,导致ASM实例无法获得足够的资源。

原因::由于节点间的私网配置问题,导致ASM实例之间无法通信,例如私网网卡的MTU配置不一致。

原因:由于:确保$GRID_HOME/bin/oracle文件的设置正确

[grid@ebsdb1 ~]$ ll $GRID_HOME/bin/oracle

-rwsr-s--x 1 grid oinstall 210020239 Oct 27
09:15 /ebsdb/grid/11.2.0/bin/oracle

方法:确认ASM实例的spfile(gpnp profile)/pfile($GRID_HOME/dbs/init<asm实例名>.ora)存在而且能够被grid用户访问

[grid@ebsdb1 ~]$ gpnptool get

Warning: some command line parameters were
defaulted. Resulting command line:

/ebsdb/grid/11.2.0/bin/gpnptool.bin get -o-

…..

ProfileSequence="6"
ClusterUId="15bc3d3aaf6e4fdbff170ea43ef3cbf6"
ClusterName="ebsdb-cluster"
PALocation=""><gpnp:Network-Profile><gpnp:HostNetwork
id="gen" HostName="*"><gpnp:Network
id="net1" IP="172.28.1.0" Adapter="eth0"
Use="public"/><gpnp:Network id="net2"
IP="192.168.10.0" Adapter="eth1"
Use="cluster_interconnect"/></gpnp:HostNetwork></gpnp:Network-Profile><orcl:CSS-Profile
id="css" DiscoveryString="+asm" LeaseDuration="400"/><orcl:ASM-Profile
id="asm" DiscoveryString="/dev/mapper/asm*" SPFile=""/>

…..">

Success.

ASMCMD> ls -l
+VOTE_DG/ebsdb-cluster/ASMPARAMETERFILE/

Type              Redund  StripedTime             Sys  Name

ASMPARAMETERFILE  MIRRORCOARSE   OCT 26 15:00:00  YREGISTRY.253.926264779

gpnp profile中的中的ASM spfile信息和ASM磁盘组中的信息是一致的

[grid@ebsdb2 ~]$ ls -l $ORACLE_HOME/dbs

total 20

-rw-rw---- 1 grid oinstall 1052 Feb  3 08:15 ab_+ASM2.dat

drwxr-xr-x 2 grid oinstall 4096 Dec 27
15:00 arch

-rw-rw---- 1 grid oinstall 1544 Feb  3 10:42 hc_+ASM2.dat

-rw-r--r-- 1 grid oinstall 2851 Oct 26
15:40 init.ora

-rw-r----- 1 grid oinstall 1536 Oct 26
15:59 orapw+ASM

ASM实例的pfile是存在的,而且grid用户能够访问。

方法:参考对于平台的Oracle安装指南,确认操作系统的参数和资源限制满足Oracle要求。

方法:确保集群所有节点的HAIP能够正常启动,而且通信没有问题。如果HAIP问题不能解决,可以设置初始化参数cluster_interconnects,以使:确保所有节点的私网配置一致并且畅通,例如:所有节点的私网都具有相同的MTU值。:)">CTSS

)">HAIP

::集群私网存在问题,从而导致HAIP地址无法被绑定。

原因::修改OCR中的信息,确保其和操作系统一致,在大部分的情况下使用命令oifcfg setif即可。例如

oifcfg -setif -global
eth1/10.1.0.0:cluster_interconnect

oifcfg -delif -global eth1/10.1.1.0

方法:确认私网网卡能正常运行。

方法:对于Oracle的已知问题。由于11gR2版本中关于HAIP的问题比较多,要具体情况具体分析,不过比较通用的建议是,使用最近的版本(11.2.0.4)并应用最新的PSU补丁包。">