记一次大量 TCP 连接失败

时间:2023-03-09 07:20:47
记一次大量 TCP 连接失败

背景

在一段没有日志的历史遗留代码上面加入监控部署后不久,就收到了服务调用成功率低的告警,真是哗了狗了

记一次大量 TCP 连接失败

解决过程

client端在线上单机部署,根据监控上面的返回码比例看出失败原因都是链接失败,通过 tcpdump 在 server 端和 client 端抓包没有发现拒绝的链接请求,另外有另外一台机器同样访问着 server 端的服务,排除丢包(这个可能也可以通过ping命令排除),server端高负载可能,所以可以推断是 client 端的问题。

看到 client 端定时任务起来后 CPU 满了,可惜只是个现象,还是看不出到底是机器性能问题还是啥问题

记一次大量 TCP 连接失败

原来的代码没打日志,不能直接查到系统错误码,正在执行任务也不能直接改代码重新部署,改用 telnet 尝试发起 TCP 连接,遂链接失败

记一次大量 TCP 连接失败

还是没有系统错误码,不过这样就好定位了,通过自己写的 python 工具发起连接试试,

记一次大量 TCP 连接失败

google之,找到 http://www.51testing.com/html/21/66821-147278.htmlhttp://huoding.com/2013/12/31/316 ,这是个大量 TCP 短连接的调用,基本符合上面说到的情况,根据前辈的建议,开启了 tcp_timestamps 和 tcp_tw_reuse。一段时间后,就看到 CPU 降下去,成功率上来了~撒花~

记一次大量 TCP 连接失败