[置顶] oracle 11g 多次业务用户被锁定 library cache lock导致数据hang住问题解决

时间:2021-11-29 23:09:30

现象:生产库业务用户多次被锁定,锁定后伴有library cache lock问题

应急措施:

1、查询library cache lock等待事件的blocking_session,考虑这些blocking_session对应的sid为业务机器连到数据库等待验证的错误密码的session,通过查询v$session查询业务机器是哪台,让开发人员排查程序;

2、通过kill -9杀掉操作系统层面导致library cache lock的session

3、解锁用户 alter user username account unlock;

事后排查方法:

1、查看listener.log 数据库锁定时的用户发起的连接,将截取的日志部分发给开发,让开发部门排查程序;

2、写记录用户登陆失败的触发器备下次再出现这样的问题使用,

CREATE OR REPLACE TRIGGER logon_denied_to_alert
AFTER servererror ON DATABASE
DECLARE
message VARCHAR2(168);
ip VARCHAR2(15);
v_os_user VARCHAR2(80);
v_module VARCHAR2(50);
v_action VARCHAR2(50);
v_pid VARCHAR2(10);
v_sid NUMBER;
v_program VARCHAR2(48);
BEGIN
IF (ora_is_servererror(1017)) THEN

-- get ip FOR remote connections :
IF upper(sys_context('userenv', 'network_protocol')) = 'TCP' THEN
ip := sys_context('userenv', 'ip_address');
END IF;

SELECT sid INTO v_sid FROM sys.v_$mystat WHERE rownum < 2;
SELECT p.spid, v.program
INTO v_pid, v_program
FROM v$process p, v$session v
WHERE p.addr = v.paddr
AND v.sid = v_sid;

v_os_user := sys_context('userenv', 'os_user');
dbms_application_info.read_module(v_module, v_action);

message := to_char(SYSDATE, 'YYYYMMDD HH24MISS') ||
' logon denied from ' || nvl(ip, 'localhost') || ' ' ||
v_pid || ' ' || v_os_user || ' with ' || v_program || ' – ' ||
v_module || ' ' || v_action;

sys.dbms_system.ksdwrt(2, message);

END IF;
END;
/

事实上这个触发器基本没什么用,当错误密码并发登录一来,整个数据都hang住了,v$session视图根本查不动,上面的触发器根本没法用。


当然此时最头疼的就是为什么错误密码的连接一并发登陆,就会有大量的library cache lock。在我的印象里,只有当大量并发sql去library cache获取handle时才会产生library cache lock,为什么错误密码的连接会导致大量的library cache lock,而且这些等待事件都没有sql_id,好奇怪,想不通。

查询metalink,得到了下面的结果

Library Cache Locks Due to Invalid Login Attempts (Doc ID 1309738.1)

Cause
Numerous failed logins attempts can cause row cache lock waits and/or library cache lock waits.
Set the below event in the spfile or init.ora file and restart the database:

alter system set event ="28401 TRACE NAME CONTEXT FOREVER, LEVEL 1" scope=spfile;

or

EVENT="28401 TRACE NAME CONTEXT FOREVER, LEVEL 1"


好吧,我竟无言以对!

上面的原因是:11g延迟密码验证新特性,在输入错误的密码后,后续如果还是采用错误的密码登陆,将会导致密码延迟验证,而且会导致失败登陆延长。当有并发登陆失败就会造成library cache lock。(具体是为什么我还在想)


考虑到上面问题解决办法效率不高,终极解决办法就横空出世了:

oracle的审计功能!还是我们了解不太多的东西,当时人家好用啊。

首先呢,11g是默认开启db级别的审计的,如果不太确定是否开启,什么级别:show parameter audit

但是我自己做了个实验:确认我的库是开启db审计,但是我故意输错密码,在aud$并未查到相关的记录。。。。有点灰心。

本着试试的心态问题百度,哈哈居然有结果。

虽然数据库审计是开着的,但还需要开启对试图尝试口令的访问的审计

SQL>AUDIT ALL BY ACCESS WHENEVER NOT SUCCESSFUL

开启之后,再做几个实验,通过

 select sessionid, 
userid, 
userhost, 
comment$text, 
spare1, 
to_char(ntimestamp# + 1 / 3, 'yyyy-mm-dd hh24:mi:ss') 
from sys.aud$ a 
where a.ntimestamp# > sysdate-3 
and returncode = 1017 
order by ntimestamp# desc;  
能够查询到业务机器错误密码的登陆记录。万事大吉!


                                                                                                                 文章不太详细  需要技术支持或是技术沟通,请联系     王杰  15314117200

                                                                                                                                                                                               夏家祥 QQ:592379255