• 线上故障排查——drools规则引擎使用不当导致oom

    时间:2024-01-14 18:44:02

    事件回溯1、7月26日上午11:34,告警邮件提示:tomcat内存使用率连续多次超过90%;2、开发人员介入排查问题,11:40定位到存在oom问题,申请运维拉取线上tomcat 内存快照dump;3、开发人员担心服务抗不过下午的业务高峰期,让运维在中午低谷期间重启tomcat;4、11:45,运...

  • JAVA线上故障排查手册-(推荐)

    时间:2024-01-14 18:39:13

    参考:https://fredal.xin/java-error-check?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io线上故障主要会包括cpu、磁盘、内存以及网络问题,而大多数故障可能会包含不止一个层面的问...

  • Rsync 12种故障排查及思路

    时间:2024-01-14 18:20:57

    Rsync 故障排查整理Rsync服务常见问题汇总讲解:==============================================================================================1 客户端的错误现象:No route to hostr...

  • Linux运维常见故障排查和处理的33个技巧汇总

    时间:2024-01-14 18:13:08

    作为linux运维,多多少少会碰见这样那样的问题或故障,从中总结经验,查找问题,汇总并分析故障的原因,这是一个Linux运维工程师良好的习惯。每一次技术的突破,都经历着苦闷,伴随着快乐,可我们还是执着的继续努力,从中也积累了更多的经验,这就是实践给予我们的丰厚回报。下面汇总了我做项目过程可能出现的故...

  • JVM 线上故障排查

    时间:2024-01-14 18:12:48

    JVM 线上故障排查Linux1.1 CPU1.2 内存1.3 存储1.4 网络一、CPU 飚高寻找原因二、内存问题排查三、一般排查问题的方法四、应用场景举例4.1 怎么查看某个Java进程里面占用CPU最高的一个线程具体信息?4.2 统计每种网络状态的数量4.3 怎么查看哪个进程在用swap原文地...

  • JVM 线上故障排查基本操作--CPU飙高

    时间:2024-01-14 18:02:30

    JVM 线上故障排查基本操作CPU 飚高线上 CPU 飚高问题大家应该都遇到过,那么如何定位问题呢?思路:首先找到 CPU 飚高的那个 Java 进程,因为你的服务器会有多个 JVM 进程。然后找到那个进程中的 “问题线程”,最后根据线程堆栈信息找到问题代码。最后对代码进行排查。如何操作呢?通过 t...

  • JVM 线上故障排查基本操作 (转)

    时间:2024-01-14 18:02:52

    前言对于后端程序员,特别是 Java 程序员来讲,排查线上问题是不可避免的。各种 CPU 飚高,内存溢出,频繁 GC 等等,这些都是令人头疼的问题。楼主同样也遇到过这些问题,那么,遇到这些问题该如何解决呢?首先,出现问题,肯定要先定位问题所在,然后分析问题原因,再然后解决问题,最后进行总结,防止下次...

  • Linux系统运维故障排查

    时间:2024-01-14 18:00:53

    一.思路 1.处理问题要求 2.一般思路二.具体问题 1.网络问题 (1)网络不通 (2)网络很慢 2.硬件问题 3.操作系统问题 (1)系统无法正常启动 (2)系统运行慢或死机 4.服务或程序问题 5....

  • 生产环境JAVA进程高CPU占用故障排查

    时间:2024-01-14 18:00:56

    问题描述:生产环境下的某台tomcat7服务器,在刚发布时的时候一切都很正常,在运行一段时间后就出现CPU占用很高的问题,基本上是负载一天比一天高。问题分析:1,程序属于CPU密集型,和开发沟通过,排除此类情况。2,程序代码有问题,出现死循环,可能性极大。问题解决:1,开发那边无法排查代码某个模块有...

  • [CentOS7][ssh][publickey][troubleshoot] 通过密钥登录ssh故障排查

    时间:2024-01-14 17:56:51

    通常情况下,我会使用非对称加密的方式来进行ssh的登录。做法:将公钥添加到 $HOME/.ssh/authorized_keys 文件中。但是通常,会遇见各种各样的问题,导致失败。汇总如下:0. 常用的排除手段,一般就是,双端开debug,clinet开启的方式如下,server还从来没与与遇见过需...

  • JVM 线上故障排查基本操作

    时间:2024-01-14 17:49:39

    # 前言对于后端程序员,特别是 Java 程序员来讲,排查线上问题是不可避免的。各种 CPU 飚高,内存溢出,频繁 GC 等等,这些都是令人头疼的问题。楼主同样也遇到过这些问题,那么,遇到这些问题该如何解决呢?首先,出现问题,肯定要先定位问题所在,然后分析问题原因,再然后解决问题,最后进行总结,防止...

  • 生产环境下JAVA进程高CPU占用故障排查---temp

    时间:2024-01-14 17:35:42

    问题描述:生产环境下的某台tomcat7服务器,在刚发布时的时候一切都很正常,在运行一段时间后就出现CPU占用很高的问题,基本上是负载一天比一天高。问题分析:1,程序属于CPU密集型,和开发沟通过,排除此类情况。2,程序代码有问题,出现死循环,可能性极大。问题解决:1,开发那边无法排查代码某个模块有...

  • 一次完整的JVM堆外内存泄漏故障排查记录

    时间:2024-01-12 20:52:31

    前言记录一次线上JVM堆外内存泄漏问题的排查过程与思路,其中夹带一些JVM内存分配机制以及常用的JVM问题排查指令和工具分享,希望对大家有所帮助。在整个排查过程中,我也走了不少弯路,但是在文章中我仍然会把完整的思路和想法写出来,当做一次经验教训,给后人参考,文章最后也总结了下内存泄漏问题快速排查的几...

  • 性能测试之JVM的故障排查-死锁

    时间:2024-01-12 11:28:46

    死锁原因Java发生死锁的根本原因是:在申请锁时发生了交叉闭环申请。即线程在获得了锁A并且没有释放的情况下去申请锁B,这时,另一个线程已经获得了锁B,在释放锁B之前又要先获得锁A,因此闭环发生,陷入死锁循环。监控死锁VisualVM监控工具有明显线程死锁提醒,也可监控到发生死锁的线程、类、代码行数、...

  • 生产环境下JAVA进程高CPU占用故障排查

    时间:2024-01-11 23:08:14

    问题描述:生产环境下的某台tomcat7服务器,在刚发布时的时候一切都很正常,在运行一段时间后就出现CPU占用很高的问题,基本上是负载一天比一天高。问题分析:1,程序属于CPU密集型,和开发沟通过,排除此类情况。2,程序代码有问题,出现死循环,可能性极大。问题解决:1,开发那边无法排查代码某个模块有...

  • Linux 网络故障排查

    时间:2024-01-10 21:05:23

    1.第一步是要确认网卡本身是否工作正常?利用ping工具可以确认这点。输入ping 127.0.0.1 ,然后看是否正常ping 通? 这里的127.0.0.1 被称作主机的回环接口,是TCP/IP协议栈正常工作的前提。如果ping 不通,一般可以证实本机TCP/IP协议栈有问题,自然就无法连接到网...

  • 性能分析 | Java进程CPU占用高导致的网页请求超时的故障排查

    时间:2024-01-06 17:35:30

    一、发现问题的系统检查:一个管理平台门户网页进统计页面提示请求超时,随进服务器操作系统检查load average超过4负载很大,PID为7163的进程占用到了800%多。 二、定位故障根据这种故障的一般处理思路,先找出问题进程内CPU占用率高的线程,再通过线程栈信息找出该线程当时在运行的问...

  • 记一次tomcat故障排查(转)

    时间:2023-11-15 20:02:20

    1~1024之间的端口号是保留端口,通常是为特定目的预留的。虽然你的问题不是由于保留端口引起的,但是仍然建议你不要随意使用保留端口作为自定义服务的端口,如果你能早早遵循这一规则压根就不会遇到这个问题。就像编程时不要用某些保留字作为变量名的道理一样,虽然用了平时可能也没事,但保不住哪天就给你来个莫名其...

  • 【Redis故障排查】「连接失败问题排查和解决」带你总体分析和整理Redis的问题故障实战开发指南及方案

    时间:2023-02-14 07:19:35

    Redis连接失败问题排查和解决当你的应用服务在连接Redis时出现了拒绝连接的场景,首先你可以根据调整Redis实例参数maxclients的配置。maxclients代表着最大同时连接的客户端个数,Proxy集群实例不支持该参数,取值范围1,000~50,000,默认值:10,000,可以调整的...

  • Java线上应用故障排查之高CPU占用

    时间:2023-02-13 20:30:43

    最近线上频繁报警CPU空闲不足,故紧急排查后作此总结topps -ef|grep 22630ps -mp 22630 -o THREAD,tid,time | sort -nr | head -15printf "%x\n" 22657jstack 22630 |grep 5881 -A 301,使...