生产环境 SR650服务器硬盘故障应急处理过程

时间:2022-11-29 18:03:59

1.故障描述

2021年某日,巡检发现生产环境服务器Slot3硬盘告警(1.2T SAS 2.5英寸,FRU:00YK016),当日报修。

第二天一早,联想工程师上门更换。拔下故障盘,插入带来的新备件,发现故障Slot 3盘故障依旧。登录带外管理查看,如下图:

生产环境 SR650服务器硬盘故障应急处理过程

生产环境 SR650服务器硬盘故障应急处理过程

点击阵列卡配置及硬盘部件详情,均无法看到相关信息:

生产环境 SR650服务器硬盘故障应急处理过程

2.处理过程

1、收集Service Data发联想技术支持,联想CAG工程师回复需要升级阵列卡微码解决。因有风险,故和业务协商停机时间,定于xx月12日18:00-xx月13日 12:00。

2、xx月12日18:00,用Windows Server Backup对该服务器执行一次整机备份,备份到移动硬盘。

3、备份完成后,在操作系统内直接执行阵列卡微码升级程序,提示升级成功。

4、重启服务器,正常引导后带外已经能正常看到阵列配置和磁盘详情。但除Slot3告警依旧外,Slot6硬盘(与Slot3同规格)也出现告警。因不在同一个span,所以数据暂无影响。

5、升级UEFI,升级XCC到最新版本;故障依旧。

6、联想CAG指示把机器彻底下电,拔掉阵列卡,重新上电;上述操作执行后,故障依旧。

生产环境 SR650服务器硬盘故障应急处理过程

7、按CAG指示收集调试日志,两次均卡在99%,等待时间过长且硬盘灯、鼠标已无响应,遂放弃。

生产环境 SR650服务器硬盘故障应急处理过程

8、开机到带外管理收集Service Data,因已经能看到硬盘详情,CAG回复是硬盘固件版本过低导致,要求升级固件:

生产环境 SR650服务器硬盘故障应急处理过程

生产环境 SR650服务器硬盘故障应急处理过程

9、个人检查发现,Slot 3其实此时处于Normal但Unconfiguration Bad、且带Foreign信息,在带外管理直接把Slot 3清除Foreign(外部阵列)信息并Make UGood,重启机器触发阵列检查,Slot  3开始正常Rebuild。

10、登入操作系统,升级硬盘微码至L1B9,均成功。重启系统(彻底断电),故障依旧。

生产环境 SR650服务器硬盘故障应急处理过程

11、再次收集ServiceData,发现Slot6确实存在错误计数。

生产环境 SR650服务器硬盘故障应急处理过程

12、和联想售后沟通后就Slot 6重新报障,更换后等待同步完成后,告警消除。

3.总结与教训

1、关键部件固件、微码尽量保持官方建议的版本。

2、升级UEFI/阵列卡微码,涉及底层报警阀值及风险预测机制,此前没有报警的部件可能会在升级后报警。故升级UEFI及固件前最好做好数据备份,以规避因升级触发同一个VD两个或更多成员盘同时告警的极端情况。

3、条件允许情况下,数据备份尽量完整。

4、对于官方、原厂技术支持的说法和建议,要有自行评估的能力。