java实战CPU占用过高问题的排查及解决

最近一段时间某台服务器上的一个应用总是隔一段时间就自己挂掉用top看了看从重新部署应用开始没有多长时间cpu占用上升得很快

排查步骤

1.使用top 定位到占用cpu高的进程pid

top

2.通过ps aux | grep pid命令

获取线程信息，并找到占用cpu高的线程

ps -mp pid -o thread,tid,time | sort -rn

3.将需要的线程id转换为16进制格式

printf "%x\n" tid

4.打印线程的堆栈信息到了这一步具体看堆栈的日志来定位问题了

jstack pid |grep tid -a 30

top 可以看出pid 733进程的占用cpu 172%

java实战CPU占用过高问题的排查及解决

查找进程733下的线程可以看到tid 线程775占用了96%且持有了很长时间其实到这一步基本上能猜测到应该是肯定是那段代码发生了死循环

ps -mp 733 -o thread,tid,time | sort -rn

java实战CPU占用过高问题的排查及解决

线程id转换为16进制格式

printf "%x\n" 775

java实战CPU占用过高问题的排查及解决

查看 java 的堆栈信息

jstack 733 |grep 307 -a 30

java实战CPU占用过高问题的排查及解决

显然是 smsqueueserviceimpl 中的producemisssms 和 consumemisssms 方法有问题

一下为精简的部分代码

				?

									/** * created by dongxc on 2015/7/7. 通知消息队列 */

									@service("smsqueueservice")

									public class smsqueueserviceimpl {

									 // 生产异常队列方法

									 public void producemisssms(smslogdo smslogdo) {

									  /*

									   * try{ string key = enumredisprefix.sms_queue_miss_deal.getvalue(); boolean result = redisservice.lpush(key,

									   * smslogdo, 0); if(result==false){ logger.error("通知消息异常队列生产消息返回失败！"+smslogdo.getid()); } }catch(exception e){

									   * logger.error("通知消息异常队列生产消息失败！", e); }

									   */

									 }

									 // 消费异常队列方法

									 public smslogdo consumemisssms() {

									  try {

									   string destkey = enumredisprefix.sms_queue_miss_deal.getvalue();

									   smslogdo smslogdo = new smslogdo();

									   object obj = null;

									   if (obj == null) {

									    return null;

									   } else {

									    smslogdo = (smslogdo) obj;

									   }

									   return smslogdo;

									  } catch (exception e) {

									   logger.error("通知消息队列消费方法失败！", e);

									   return null;

									  }

									 }

									}

从很有年代感的垃圾代码来看这两个方法并没有什么问题继续往调用这两个方法的上层排查

				?

									/**

									 * created by dongxc on 2015/7/7.

									 * 消息通知监控线程

									 */

									@service("smsmonitorcomsumer")

									public class smsmonitorcomsumerimpl {

									 @autowired

									 private smsqueueserviceimpl smsqueueservice;

									 //取队列里的任务消费

									 @transactional(propagation= propagation.not_supported)

									 public void run() {

									 while (true) {

									   try {

									    smslogdo smslogdo = smsqueueservice.consumemisssms();

									    boolean result = false;

									    if(smslogdo!=null){

									     long diff = (new date()).gettime() - smslogdo.getsendtime().gettime() ;

									     long min = diff%(1000*24*60*60)%(1000*60*60)/(1000*60);//计算差多少分钟

									     if(min>5){

									      result = true;

									     }

									    }

									    if(result){

									     smsqueueservice.producesms(smslogdo);

									    }else{

									     smsqueueservice.producemisssms(smslogdo);

									    }

									   } catch (exception ex) {

									    try{

									     thread.sleep(3000);

									    }catch(exception e){

									     //logger.error("发送站内信息短信时线程执行失败2！", e);

									    }

									   }

									  }

									 }

									}

很显然这里有一个while(true) 基本定位到问题了 while里面完全是没有用的代码

java实战CPU占用过高问题的排查及解决

继续往上层看谁来调用

				?

									/**

									 * created by dongxc on 2015/7/7.

									 * 通知消息队列

									 */

									@service("smslogrunthread")

									public class smslogrunthreadimpl {

									 public int flag;

									 @autowired

									 private smslogconsumerimpl smslogconsumer;

									 @autowired

									 private smsmonitorcomsumerimpl smsmonitorcomsumer;

									 @postconstruct

									 public void init() {

									  if(ip!=""&&host!=""&&ip.equals(host)){

									   thread thread = new thread(){

									    public void run() {

									     smslogconsumer.run();

									    }

									   };

									   thread.start();

									   thread thread1 = new thread(){

									    public void run() {

									     smsmonitorcomsumer.run();

									    }

									   };

									   thread1.start();

									  }

									 }

									}

在应用一启动的时候 spring初始化的就会执行这一段处理丢失消息的代码然后这段死循环代码没有任何作用

解决方法即注释掉whlie(true)这一段代码

案例一下,其实之前也遇到过cpu占用很高的问题, 但是那次是频繁的gc导致的

其实排查问题的过程中也是在不断的学习的过程

原文链接：https://www.cnblogs.com/xxj0316/p/9448987.html

秒客网

java实战CPU占用过高问题的排查及解决

相关文章