Dir雪崩事件记录-游戏产品运营故事

时间:2024-05-13 02:10:48
【文件属性】:
文件名称:Dir雪崩事件记录-游戏产品运营故事
文件大小:12.01MB
文件格式:PPT
更新时间:2024-05-13 02:10:48
游戏 运营 Dir雪崩事件记录: 1月14日中午13:40分,接到dir coredump告警。登陆发现大部分dir server已经coredump。简单查看了下发现问题很难定位。同时从运营同事侧了解到中午12点左右增加了目录树的节点,于是让运营同事回退配置文件,然后拉起所有core掉的dir服务器。 大约在2:30左右所有服务器被拉起,由于大量用户不断登陆,使得网卡流量到达极限。查看dir日志发现工作是正常的。但是用户就是无法登陆。 3:00查看dir的负载正常,每分钟处理7万个以上登陆请求。再查看前端tcpsvrd接入进程的日志,发现下行数据使用的共享内存队列已满,而下行数据在最高的时候单台机器每分钟有2G左右。同时也出现大量的EAGAIN错误。在4:00的时候确认是网卡流量过高导致用户无法获得登陆所需的两个response。同时确认由于dir的处理能力远大于网卡的处理能力,因此有必要限制上行用户的请求数。

网友评论