记录一次VMware vSAN升级踩下的坑

时间:2024-02-22 07:51:28

VMware产品升级需谨慎.... 且升且珍惜....

 

1、升级背景

  vSphere 6.5u2 + vCSA 6.5u2的环境,计划升级至vSphere 6.7u3 + vCSA 6.7u3。

  vSAN集群中有24台ESXI主机:    

    4台DELL: PowerEdge R740xd  Raid卡型号:DELL 330 Adapter  Raid卡固件版本:16.17.00.03

    10台DELL:PowerEdge R730     Raid卡型号:DELL 300 Mini       Raid卡固件版本:13.17.03.05

    10台DELL:PowerEdge R730     Raid卡型号:DELL 300 Mini       Raid卡固件版本:15.17.09.06

2、升级过程

2.1 兼容性检查

  服务器信号兼容 ESXi 6.7u3

 

  Raid卡330Mini兼容ESXi 6.7u3,但是需要升级固件版本

  

   Raid卡330 Adapter兼容ESXi 6.7u3,不需要升级固件版本

    

2.2 升级vCSA

    1. 通过vCSA 6.7u3 ISO镜像中的通过升级向导非常顺利的将vCSA升级到了6.7u3。

    2. 升级完vCSA 6.7u3后在vCenter Server的vSAN集群运行状况页面看到VMware推荐的Raid卡固件版本为 16.17.00.03和16.17.00.05

     

 

2.3 升级ESXi 和 Raid卡固件

  1. 因为集群中有4台PowerEdge R740xd的Raid卡固件版本为 16.17.00.03,因此计划将20台R730的Raid卡固件版本升级至 16.17.00.03,这样集群的Raid卡固件版本就统一。

  2. 通过vCSA 6.7自带的Update Manager升级ESXI主机 非常顺利。

  3. 升级ESXI的同时,通过DELL iDRAC Web界面将Raid卡固件版本升级至 16.17.00.03 非常顺利。

  4. 同时升级ESXI和Raid卡固件版本只需要重启一次 非常顺利。

 

3、遇到的问题及处理的过程

  升级第一天

    因为集群ESXI主机数量多,虚机数量也多,为了不影响虚机,只能一台一台升级。每天大概能升级4台,一切顺利。

  升级第二天

    集群中升级了10台后,出现一大波虚机Hang死,相关业务部门的同事也一直抱怨大片业务中断,大概1分钟左右后自动恢复。

    发现每台ESXI事件日志:

        

    通过事件日志找到VMware一篇KB:https://kb.vmware.com/s/article/59220

    KB里面所有有很多种原因可能导致这个问题,如磁盘、网络等。

    KB中还说:The issue has been resolved completely of the false messages in vSAN 6.7 Update 1 onwards.  

    于是检查vSAN磁盘和网络都正常,没有任何异常。

    于是觉得应该是集群中有ESXi 6.5u2和 6.7u3混合导致的问题,于是第二天将所有ESXi主机版本都升级至 6.7u3,并且将磁盘格式也升级完成,

    一直搞到晚上11点,心想这下vSAN应该不会有问题了。

  升级第三天:

    第三天早上刚起床,打开手机看到半夜又是一大波虚机hang死的报错,相关业务部门的同事也一直抱怨大片业务中断。 

      内心奔溃中.....突然觉得尼玛vSAN产品这么不稳定的吗? 心想:看来vSAN这个产品还是不能用于生产环境。

    只能继续分析ESXI主机中的hostd.log vmkernel.log 在出现问题前没有任何征兆....

    只能继续Google.....终于找到一篇文章提到 https://kb.vmware.com/s/article/67732 .... 果然还是Raid卡固件惹的祸 .... 感动ing....

    到DELL官网 HBA330 Mini 16.17.00.05 固件页面果然看到Fixed vSAN BUG...

    

    于是赶紧将Raid卡330Mini的固件版本升级至 16.17.00.05.

    在还剩下2台ESXI主机的Raid卡固件版本还没升级时,还是出现一大波虚机hang死的报错,当时心的凉了,心想为毛还是出现Hang死故障。

    在晚上11点左右,终于将所有Raid卡330Mini固件升级至 16.17.00.05。

    睡觉的时候心里一直祈祷千万别再出问题了,再出问题都不知道如何排查了,不可能将vSAN版本降级,只能从网络方面去排查VSAN网络是否有异常。

  升级第四天:

    第四天周六早上刚起床,立马打开手机看是否有虚机hang死的报错....结果还真没有了.... 本来想起床的...立马再睡个回笼觉....   

 

4、经验总结

  对于VMware vSAN来说...各种兼容性非常重要.....一定要结合VMware官网的兼容性列表,以及各厂家的固件或驱动Release信息。