如何读懂statspack报告

时间:2021-01-02 08:28:23

前言:这篇文章是我从网上找到的,但可惜不知道是哪位大侠写(译)的,因此这里无法注明了。仔细看了看,这篇文章对初学者应该很有帮助,写的比较详细,通俗易懂,因此整理一下,便于阅读;内容略有调整,不单做调整,此记。

产生一个statspack报告是比较简单的,但是如何读懂statspack报告却不是那么容易,需要对Oracle的体系架构、内存结构、等待事件以及应用系统有充分的了解,加上不断的实践,才能基本读懂statspack报告并且从报告中找到调整优化Oracle的途径。

下面接合一个实际的statspack报告,大致分析一下。

1.基本信息分析

DB Name DB Id Instance Inst Num Release OPS Host

------------ ----------- ------------ -------- ----------- --- --------- ---

RES 2749170756 res 1 8.1.7.0.0 NO res

Snap Id Snap Time Sessions

------- ------------------ --------

Begin Snap: 2 26-Jul-0316:37:08 38

End Snap: 3 26-Jul-0317:03:23 38

Elapsed: 26.25 (mins)

Statspack报告首先描述了数据库的基本情况,比如数据库名、实例名、实例个数、

oracle版本号等等;然后是该报告的开始快照和结束快照的信息,包括 snap id , snap

time 等等;最后是该报告经过的时间跨度,单位是分钟(mins)。

Cache Sizes (end)

~~~~~~~~~~~~~~~~~

Buffer Cache: 200M Std Block Size: 8K

Shared Pool Size: 48M Log Buffer: 512K

然后描述了Oracle内存结构中几个重要的参数。

2.内存信息分析

Load Profile

~~~~~~~~~~~~ Per Second Per Transaction

--------------- ---------------

Redo size: 2,055.42 616,282.67

Logical reads: 2,317.78 694,948.08

Block changes: 17.58 5,269.92

Physical reads: 565.04 169,416.67

Physical writes: 13.47 4,037.42

User calls: 2.22 666.75

Parses: 1.22 367.08

Hard parses: 0.38 114.92

Sorts: 0.64 192.25

Logons: 0.00 1.17

Executes: 2.57 771.92

Transactions: 0.00

% Blocks changed per Read: 0.76 Recursive Call %: 86.78

Rollback per transaction %: 0.00 Rows per Sort: 34.84

.. Redo size: 是日志的生成量,分为每秒和每事务所产生的,通常在很繁忙的系统

中日志生成量可能达到上百k,甚至几百k;

.. Logical reads: 逻辑读实际上就是logical IO=buffer gets表示的含义,我们可以这样认为,block在内存中,我们每一次读一块内存,就相当于一次逻辑读;

.. Parses 和 Hard parses: Parse 和 hard parse通常是很容易出问题的部分,80%的系统的慢都是由于这个原因所导致的。所谓parse分soft parse 和hard parse,soft parse是当一条sql传进来后,需要在shared pool中找是否有相同的sql,如果找到了,那就是soft parse,如果没有找着,那就开始hard parse,实际上hard parse主要是检查该sql所涉及到的所有的对象是否有效以及权限等关系,hard parse之后才根据rule/cost模式生成执行计划,再执行sql。而hard parse的根源,基本都是由于不使用bind var所导致的,不使用bind var违背了oracle的shared pool的设计的原则,违背了这个设计用来共享的思想,这样导致shared_pool_size里面命中率下降。因此不使用bind var,将导致cpu使用率的问题,极有使得性能急剧下降。还有就是为了维护internal structure,需要使用latch,latch是一种Oracle低级结构,用于保护内存资源,是一种内部生命周期很短的lock,大量使用latch将消耗大量的cpu资源。

.. Sorts: 表示排序的数量;

.. Executes: 表示执行次数;

.. Transactions: 表示事务数量;

.. Rollback per transaction %: 表示数据库中事务的回退率。如果不是因为业务本身的原因,通常应该小于10%为好,回退是一个很消耗资源的操作。

Instance Efficiency Percentages (Target 100%)

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Buffer Nowait %: 100.00 Redo NoWait %: 99.98

Buffer Hit %: 65.82 In-memory Sort %: 99.65

Library Hit %: 91.32 Soft Parse %: 88.18

Execute to Parse %: 9.28 Latch Hit %: 99.99

Parse CPU to Parse Elapsd %: 94.61 % Non-Parse CPU: 99.90

.. Buffer Hit %: 数据缓冲区命中率,最好应该大于90%。如果过小可考虑增加DB_CACHE_SIZE或者DB_BLOCK_BUFFERS

.. Library Hit %: libaray cache的命中率,最好应该大于98%。如果过小可考虑增加SHARED_POOL_SIZE。

.. In-memory Sort %: 排序在内存的比例,如果这个比例过小,可以考虑增大sort_area_size,在Oracle9i中可以考虑调整pga_aggregate_target,使得排序在内存中进行而不是在temp表空间中进行;

.. Soft Parse %: 软解析的百分比,这个百分比也应该很大才好,因为我们要尽量减少hard parse。 soft parse 百分比=soft/(soft+hard);

.. Execute to Parse %: 这个数字也应该是越大越好,接近100%最好。有些报告中这个值是负的,看上去很奇怪。事实上这表示一个问题,sql如果被age out的话就可能出现这种情况,也就是sql老化,或执行alter system flush shared_pool等。

Shared Pool Statistics Begin End

------ ------

Memory Usage %: 90.63 87.19

% SQL with executions>1: 71.53 75.39

% Memory for SQL w/exec>1: 59.45 65.17

.. % SQL with executions>1: 这个表示SQL被执行次数多于一次的比率,也应该大为好,小则表示很多sql只被执行了一次,说明没有使用绑定变量。

3.等待事件分析

等待事件(Wait Events)是Oracle中比较复杂难懂的概念。Oracle 的等待事件是衡量Oracle 运行状况的重要依据及指标。等待事件的概念是在Oracle7.0.1.2 中引入的,大致有100 个等待事件。在Oracle 8.0 中这个数目增加到了大约150 个,在Oracle8i 中大约有200 个事件,在Oracle9i 中大约有360 个等待事件。主要有两种类别的等待事件,即空闲(idle)等待事件和非空闲(non-idle)等待事件。空闲事件指Oracle 正等待某种工作,在诊断和优化数据库的时候,我们不用过多注意这部分事件。常见的空闲事件有:

.. dispatcher timer

.. lock element cleanup

.. Null event

.. parallel query dequeue wait

.. parallel query idle wait - Slaves

.. pipe get

.. PL/SQL lock timer

.. pmon timer- pmon

.. rdbms ipc message

.. slave wait

.. smon timer

.. SQL*Net break/reset to client

.. SQL*Net message from client

.. SQL*Net message to client

.. SQL*Net more data to client

.. virtual circuit status

.. client message

非空闲等待事件专门针对Oracle 的活动,指数据库任务或应用运行过程中发生的等

待,这些等待事件是我们在调整数据库的时候应该关注与研究的。

一些常见的非空闲等待事件有:

.. db file scattered read

.. db file sequential read

.. buffer busy waits

.. free buffer waits

.. enqueue

.. latch free

.. log file parallel write

.. log file sync

下面接合statspack中的一些等待事件进行讲述。

Top 5 Wait Events

~~~~~~~~~~~~~~~~~ Wait % Total

Event Waits Time (cs) Wt Time

-------------------------------------------- ------------ ------------ -------

db file scattered read 26,877 12,850 52.94

db file parallel write 472 3,674 15.13

log file parallel write 975 1,560 6.43

direct path write 1,571 1,543 6.36

control file parallel write 652 1,290 5.31

-------------------------------------------------------------

.. db file scattered read: DB文件分散读取。

这个等待事件很常见,经常在top5中出现,这表示,一次从磁盘读数据进来的时候读了多于一个block的数据,而这些数据又被分散的放在不连续的内存块中,因为一次读进来的是多于一个block的。

通常来说我们可以认为是全表扫描类型的读,因为根据索引读表数据的话一次只读一个block,如果这个数字过大,就表明该表找不到索引,或者只能找到有限的索引,可能是全表扫描过多,需要检查sql是否合理的利用了索引,或者是否需要建立合理的索引。

当全表扫描被限制在内存时,它们很少会进入连续的缓冲区内,而是分散于整个缓冲存储器中。尽管在特定条件下执行全表扫描可能比索引扫描更有效,但如果出现这种等待时,最好检查一下这些全表扫描是否必要,是否可以通过建立合适的索引来减少对于大表全表扫描所产生的大规模数据读取。对于经常使用的小表,应该尽量把他们pin 在内存中,避免不必要的老化清除及重复读取。

.. db file sequential read: DB文件连续读取。通常显示单个块的读取(通常指索引读取),表示的是读进磁盘的block被放在连续的内存块中。事实上大部分基本代表着单个block的读入,可以说象征着 IO 或者说通过索引读入的比较多。因为一次IO若读进多个的block,放入连续的内存块的几率是很小的,分布在不同block的大量记录被读入就会遇到此事件。因为根据索引读数据的话,假设100条记录,根据索引,不算索引本身的读,而根据索引每个值去读一下表数据,理论上最多可能产生100 buffer gets,而如果是full table scan,则100条数据完全可能在一个block里面,则几乎一次就读过这个block了,就会产生这么大的差异。这种等待的数目很多时,可能显示表的连接顺序不佳,或者不加选择地进行索引。 对于高级事务处理(high-transaction)、调整良好(welltuned)的系统,这一数值很大是很正常的,但在某些情况下,它可能暗示着系统中存在问题。你应当将这一等待统计量与Statspack 报告中的已知问题(如效率较低的SQL)联系起来。检查索引扫描,以保证每个扫描都是必要的,并检查多表连接的连接顺序。DB_CACHE_SIZE 也是这些等待出现频率的决定因素。有问题的散列区域(Hash-area)连接应当出现在PGA 内存中,但它们也会消耗大量内存,从而在顺序读取时导致大量等待。它们也可能以直接路径读/写等待的形式出现。

.. Free Buffer Wait: 释放缓冲区。

这种等待表明系统正在等待内存中的缓冲,因为内存中已经没有可用的缓冲空间了。如果所有SQL 都得到了调优,这种等待可能表示你需要增大DB_BUFFER_CACHE。释放缓冲区等待也可能表示不加选择的SQL 导致数据溢出了带有索引块的缓冲存储器,没有为等待系统处理的特定语句留有缓冲区。这种情况通常表示正在执行相当多数量的DML(插入/更新/删除),并且可能说明DBWR 写的速度不够快,缓冲存储器可能充满了相同缓冲器的多个版本,从而导致效率非常低。为了解决这个问题,可能需要考虑增加检查点、利用更多的DBWR 进程,或者增加物理磁盘的数量。

.. Buffer Busy Wait: 缓冲区忙。

该等待事件表示正在等待一个以unshareable方式使用的缓冲区,或者表示当前正在被读入buffer cache。也就是当进程想获取或者操作某个block的时候却发现被别的进程在使用而出现等待。一般来说Buffer Busy Wait不应大于1%。检查缓冲等待统计部分(或V$WAITSTAT),看一下等待是否位于段头。如果是,可以考虑增加*列表(freelist,对于Oracle8i DMT)或者增加freelist groups.其修改语法为:

SQL> alter table sp_item storage (freelists 2);

对于Oracle8i而言,增加freelist参数,在很多时候可以明显缓解等待,如果使用LMT,也就是 Local Manangement Tablespace,区段的管理就相对简单。还可以考虑修改数据块的pctused\pctfree值,比如增大pctfree可以扩大数据的分布,在某种程度上就可以减少热点块的竞争。如果这一等待位于undo header,可以通过增加回滚段(rollback segment)来解决缓冲区的问题。如果等待位于undo block上,我们可能需要检查相关应用,适当减少大规模的一致性读取,或者降低一致性读取(consistent read)的表中的数据密度或者增大DB_CACHE_SIZE。如果等待处于data block,可以考虑将频繁并发访问的表或数据移到另一数据块或者进行更大范围的分布(可以增加pctfree 值,扩大数据分布,减少竞争),以避

开这个"热点"数据块,或者可以考虑增加表中的*列表或使用本地化管理的表空间(Locally Managed Tablespaces)。如果等待处于索引块,应该考虑重建索引、分割索引或使用反向键索引。反向键索引在很多情况下,可以极大地缓解竞争,其原理有点类似于hash分区的功效。反向键索引(reverse key index)常建在一些值是连续增长的列上,例如列中的值是由sequence产生的。为了防止与数据块相关的缓冲忙等待,也可以使用较小的块:在这种情况下,单个块中的记录就较少,所以这个块就不是那么"繁忙";或者可以设置更大的pctfree,使数据扩大物理分布,减少记录间的热点竞争。在执行DML (insert/update/ delete)时,Oracle向数据块中写入信息,对于多事务并发访问的数据表,关于ITL的竞争和等待可能出现,为了减少这个等待,可以增加initrans,使用多个ITL槽。

.. latch free: latch释放

latch 是一种低级排队机制,用于保护SGA *享内存结构。

latch就像是一种快速地被获取和释放的内存锁。latch用于防止共享内存结构被多个用户同时访问。如果latch不可用,就会记录latch释放失败(latch free miss)。

有两种与闩有关的类型:立刻和可以等待。

假如一个进程试图在立刻模式下获得闩,而该闩已经被另外一个进程所持有,如果该闩不能立刻可用的话,那么该进程就不会为获得该闩而等待。它将继续执行另一个操作。

大多数latch 问题都与以下操作相关:

没有很好的是用绑定变量(library cache latch)、重作生成问题(redo allocation latch)、缓冲存储器竞争问题(cache buffers LRU chain),以及buffer cache中的存在"热点"块(cache buffers chain)。通常我们说,如果想设计一个失败的系统,不考虑绑定变量,这一个条件就够了,对于异构性极强的系统,不使用绑定变量的后果是极其严重的。另外也有一些latch 等待与bug 有关,应当关注Metalink 相关bug 的公布及补丁的发布。当latch miss ratios大于0.5%时,就应当研究这一问题。Oracle 的 latch 机制是竞争,其处理类似于网络里的CSMA/CD,所有用户进程争夺latch,对于愿意等待类型(willing-to-wait)的latch,如果一个进程在第一次尝试中没有获得latch,那么它会等待并且再尝试一次,如果经过_spin_count 次争夺不能获得latch, 然后该进程转入睡眠状态,持续一段指定长度的时间,然后再次醒来,按顺序重复以前的步骤.在8i/9i 中默认值是 _spin_count=2000。如果SQL语句不能调整,在8.1.6版本以上,Oracle提供了一个新的初始化参数: CURSOR_SHARING,可以通过设置CURSOR_SHARING = force 在服务器端强制绑定变量。设置该参数可能会带来一定的副作用,对于Java的程序,有相关的bug,具体应用应该关注Metalink的bug公告。

.. enqueue

enqueue 是一种保护共享资源的锁定机制。该锁定机制保护共享资源,如记录中的数据,以避免两个人在同一时间更新同一数据。enqueue 包括一个排队机制,即FIFO(先进先出)排队机制。Enqueue 等待常见的有ST、HW 、TX 、TM 等。ST enqueue 用于空间管理和字典管理的表空间(DMT)的分配。对于支持LMT 的版本,可以考虑使用本地管理表空间,对于Oracle8i,因为相关bug 不要把临时表空间设置为LMT. 或者考虑预分配一定数量的区。HW enqueue 指段的高水位标记相关等待;手动分配适当区段可以避免这一等待。TX 是最常见的enqueue 等待。TX enqueue 等待通常是以下三个问题之一产生的结果。第一个问题是唯一索引中的重复索引,你需要执行提交(commit)/回滚(rollback)操作来释放enqueue。第二个问题是对同一位图索引段的多次更新。因为单个位图段可能包含多个行地址(rowid),所以当多个用户试图更新同一段时,等待出现。直到提交或回滚, enqueue 释放。第三个问题,也是最可能发生的问题是多个用户同时更新同一个块。如果没有*的ITL 槽,就会发生块级锁定。通过增大initrans 和/或maxtrans 以允许使用多个ITL 槽,或者增大表上的pctfree值,就可以很轻松地避免这种情况。TM enqueue 在DML 期间产生,以避免对受影响的对象使用DDL。如果有外键,一定要对它们进行索引,以避免这种常见的锁定问题。

.. Log Buffer Space: 日志缓冲空间

当你将日志缓冲(log buffer)产生重做日志的速度比LGWR 的写出速度快,或者是当日志转换(log switch)太慢时,就会发生这种等待。为解决这个问题,可以增大日志文件的大小,或者增加日志缓冲器的大小。另外一个可能的原因是磁盘I/O 存在瓶颈,可以考虑使用写入速度更快的磁盘。

.. log file switch (archiving needed)

这个等待事件出现时通常是因为日志组循环写满以后,第一个日志归档尚未完成,出现该等待可能是 IO 存在问题。

解决办法:

.. 可以考虑增大日志文件和增加日志组

.. 移动归档文件到快速磁盘

.. 调整log_archive_max_processes .

.. log file switch (checkpoint incomplete): 日志切换(检查点未完成)

当你的日志组都写完以后,LGWR 试图写第一个log file,如果这时数据库没有完成写出记录在第一个log file 中的dirty 块时(例如第一个检查点未完成),该等待事件出现。该等待事件说明你的日志组过少或者日志文件过小。你可能需要增加你的日志组或日志文件大小。

.. Log File Switch: 日志文件转换

所有的提交请求都需要等待"日志文件转换(必要的归档)"或"日志文件转换(chkpt.不完全)"。确保归档磁盘未满,并且速度不太慢。 DBWR 可能会因为输入/输出(I/O)操作而变得很慢。你可能需要增加更多或更大的重做日志,而且如果DBWxR 是问题症结所在的话,可能需要增加数据库书写器。

.. log file sync: 日志文件同步

当一个用户提交或回滚数据时,LGWR 将session 会话的重做由redo buffer 写入到重做日志中。log file sync 必须等待这一过程成功完成(Oracle 通过写redo log file 保证commit 成功的数据不丢失),这个事件说明提交可能过于频繁,批量提交可以最大化LGWR 的效率,过分频繁的提交会引起LGWR频繁的激活,扩大了LGWR 的写代价。为了减少这种等待事件,可以尝试每次提交更多的记录。将重做日志置于较快的磁盘上,或者交替使用不同物理磁盘上的重做日志,以降低归档对LGWR的影响。对于软RAID,一般来说不要使用RAID 5,RAID5 对于频繁写入得系统会带来较大的性能损失,可以考虑使用文件系统直接输入/

输出,或者使用裸设备(raw device),这样可以获得写入的性能提高。

.. log file single write

该事件仅与写日志文件头块相关,通常发生在增加新的组成员和增进序列号时。头块写单个进行,因为头块的部分信息是文件号,每个文件不同。更新日志文件头这个操作在后台完成,一般很少出现等待,无需太多关注。

.. log file parallel write

从log buffer 写redo 记录到redo log 文件,主要指常规写操作(相对于log file sync)。

如果你的Log group 存在多个组成员,当flush log buffer 时,写操作是并行的,这时候此等待事件可能出现。尽管这个写操作并行处理,直到所有I/O 操作完成该写操作才会完成(如果你的磁盘支持异步IO或者使用IO SLAVE,那么即使只有一个redo log file member,也有可能出现此等待)。这个参数和log file sync 时间相比较可以用来衡量log file 的写入成本。通常称为同步成本率。

.. control file parallel write: 控制文件并行写

当server 进程更新所有控制文件时,这个事件可能出现。

如果等待很短,可以不用考虑。如果等待时间较长,检查存放控制文件的物理磁盘I/O 是否存在瓶颈。多个控制文件是完全相同的拷贝,用于镜像以提高安全性。对于业务系统,多个控制文件应该存放在不同的磁盘上,一般来说三个是足够的,如果只有两个物理硬盘,那么两个控制文件也是可以接受的。在同一个磁盘上保存多个控制文件是不具备实际意义的。减少这个等待,可以考虑如下方法:

.. 减少控制文件的个数(在确保安全的前提下)

.. 如果系统支持,使用异步IO

.. 转移控制文件到IO 负担轻的物理磁盘

.. control file sequential read/ control file single write

控制文件连续读/控制文件单个写。对单个控制文件I/O 存在问题时,这两个事件会出现。

如果等待比较明显,检查单个控制文件,看存放位置是否存在I/O 瓶颈。使用查询获得控制文件访问状态:

select P1 from V$SESSION_WAIT where EVENT like 'control file%' and STATE='WAITING';

解决办法:

.. 移动有问题的控制文件到快速磁盘

.. 如果系统支持,启用异步I/O

.. direct path write: 直接路径写

该等待发生在,等待确认所有未完成的异步I/O 都已写入磁盘。你应该找到I/O 操作频繁的数据文件,调整其性能。也有可能存在较多的磁盘排序,临时表空间操作频繁,可以考虑使用Local 管理表空间,分成多个小文件,写入不同磁盘或者裸设备。

.. SQL*Net message from dblink

该等待通常指与分布式处理(从其他数据库中SELECT)有关的等待。这个事件在通过DBLINKS 联机访问其他数据库时产生。如果查找的数据多数是静态的,可以考虑移动这些数据到本地表并根据需要刷新,通过快照或者物化视图来减少跨数据库的访问,会在性能上得到很大的提高。

.. slave wait: 从属进程等

Slave Wait 是Slave I/O 进程等待请求,是一个空闲参数,一般不说明问题。

4.High Load SQL 分析

对于一个特定的应用程序或者系统来讲,要调整优化其性能,最好的方法是检查程序的代码和用户使用的SQL语句。

如果使用了 level 5 级别的 snapshot ,那么statspack生成的报告中就会显示系统中高负荷SQL语句(High Load SQL)的信息,而其详细信息可以在 stats$sql_summary 表中查到。缺省情况下 snapshot 的级别是 level 5。 按照 buffer gets, physical reads, executions, memory usage and version count 等参数的降序排列顺序,把SQL语句分为几个部分罗列在报告中。在其它部分都调整好的情况下,这些top语句就会非常有用,可以对之进行优化来获得更好的性能。

5.报告的其他部分

statspack 报告的其他部分包括了 Instance Activity Stats,Tablespace IO Stats,Buffer Pool Statistics,Buffer wait Statistics,Rollback Segment Stats,Latch Activity,Dictionary Cache Stats,Library Cache Activity,SGA breakdown difference 以及数据库初始化参数等等。本文不对这些内容进行详细讨论,请参加其他详细文档。