zookeeper临时节点无法删除原因分析

时间:2025-05-14 09:07:04

1.客户端时间和服务端时间不一致,导致过期时间太长

这个是网友分析的一种场景,没遇到过

2.主从节点快照不一致

主节点和从节点的本地快照不一致,导致leader节点不存在从节点的session信息和临时节点信息。

由于临时节点过期淘汰是由主节点操作的,因此从节点的临时节点一致存在。

除非主节点发生切换,或者删除从节点快照,再重启从节点才可以恢复,否则就这样一直错下去。

该问题根因是:

zookeeper在3.6.0版本之前,数据一致性只通过zxid和epoch来确定,其快照实际内容是否完全一致没有校验。

若其它集群的旧leader快照zxid大于当前集群时,则加入新集群就会发生数据截断操作,以保持与新集群的zxid一致。

但是,截断只解决了新集群当前zxid之后的数据一致性,而之前的可能不一致。

即旧leader本地快照与新集群的其它节点不一致。但可惜的是,新集群就是没法发现(因为zxid和epoch都一样了)。

若旧leader变成新leader时,则从节点临时节点将不会被主节点删除。

 

解决方法:

1.升级到3.6.0或以上版本,可以即使发现不一致,从正确节点拷贝过来。