huawei Cloud redis 连接超时问题排查记录

时间:2022-05-08 00:40:42

在一个风和日丽的上午,日志告警群里的机器人开始告警,显示redis 连接超时;第一反应是不是redis 扛不住了。然后登陆到华为云控制台上查看redis 监控;

redis 超时肯定就是网络层面的问题,第一反应先看一下是不是连接数满了; huawei Cloud redis 连接超时问题排查记录

然后看到活跃的客户端数量是2000不到,然后里面有一个新建连接数。发现新建连接数为562788(五十万),感觉这个监控指标有点异常,因为我们redis当前redis 实力的最大TCP连接数是(10000-50000)然后我们reids 实力配置的 maxClient 参数是10000,按照道理来说新建连接数应该最大才能有10000,超过10000 就应该疯狂报错了,但是告警没有那么频繁,所以我感觉华为云的这个监控有啥问题,于是提工单来问。新建连接数 这个监控数据到底是怎么取的;得到的答案是: 新建连接数:这是60s 以内的值,真正当前这个时间点新建连接数应该是562788/60=9,379.8

所以应该是连接数超过最大值导致的连接redis 超时;

那么问题来了。 我问了所有的开发都说redis 使用的是长连接。如果真的是如他们所说那就真是活见鬼了。于是开始找证据,想法就是在同一时间在所有连接redis 的机器获取当前的TCP连接,然后看看看是从那个服务发起的连接redis;

在所有的机器上获取当前的TCP 连接状态,然后复制到指定的机器上进行分析

# cat /etc/ansible/mon.yaml
- hosts: k8s
  gather_facts: True
  tasks:
  - name: Gets the current connection status
    shell: conntrack -L >> {{ ansible_nodename }}.txt  //获取当前机器的网络链接状态
    args:
      chdir: /root/
  - name: Reverse fetch file
    fetch:
      src: "/root/{{ ansible_nodename }}.txt"
      dest: /tmp/zsf/
      flat: true
  • ansible_nodename 主机名

然后执行ansible 命令

ansible-playbook /etc/ansible/mon.yaml

然后进去到/tmp/zsf 目录下分析数据

 awk '$0~/dport=6379/{sum[$5]++}END{for(i in sum )print sum[i],i}' *| sort -n

然后就能看到每个IP地址链接redis的数量了,之后你就只需要确认这个写ip地址属于那个服务的就行了 huawei Cloud redis 连接超时问题排查记录

kubectl get pods -o wide | grep $IP

找到对应的负责开发,去排查代码。 发现确实redis 连接池没生效,导致的这个问题。到此问题得以解决;