对Oracle进行故障排除 – 挂起进程

我正在尝试理解我们正在处理的Java进程问题。这个过程已经在生产中运行了大约4个月，本周早些时候它开始悬挂。当我查看进程的线程转储时，所有相关线程（3）都有如下堆栈：

"TxnParser_1" prio=6 tid=0x69bd3400 nid=0x2534 runnable [0x6aa2f000] java.lang.Thread.State: RUNNABLE at java.net.SocketInputStream.socketRead0(Native Method) at java.net.SocketInputStream.read(SocketInputStream.java:129) at oracle.net.ns.Packet.receive(Unknown Source) at oracle.net.ns.DataPacket.receive(Unknown Source) at oracle.net.ns.NetInputStream.getNextPacket(Unknown Source) at oracle.net.ns.NetInputStream.read(Unknown Source) at oracle.net.ns.NetInputStream.read(Unknown Source) at oracle.net.ns.NetInputStream.read(Unknown Source) at oracle.jdbc.driver.T4CMAREngine.unmarshalUB1(T4CMAREngine.java:1099) at oracle.jdbc.driver.T4CMAREngine.unmarshalSB1(T4CMAREngine.java:1070) at oracle.jdbc.driver.T4C8Oall.receive(T4C8Oall.java:478) at oracle.jdbc.driver.T4CStatement.doOall8(T4CStatement.java:207) at oracle.jdbc.driver.T4CStatement.executeForDescribe(T4CStatement.java:790) at oracle.jdbc.driver.OracleStatement.executeMaybeDescribe(OracleStatement.java:1039) at oracle.jdbc.driver.T4CStatement.executeMaybeDescribe(T4CStatement.java:830) at oracle.jdbc.driver.OracleStatement.doExecuteWithTimeout(OracleStatement.java:1132) at oracle.jdbc.driver.OracleStatement.executeInternal(OracleStatement.java:1687) at oracle.jdbc.driver.OracleStatement.execute(OracleStatement.java:1653) - locked  (a oracle.jdbc.driver.T4CStatement) - locked  (a oracle.jdbc.driver.T4CConnection) at com.gcg.data.LogParsingInfo.initFromDB(LogParsingInfo.java:262) at com.gcg.om.OmQueueEntry.initParseInfoFromDB(OmQueueEntry.java:104) at com.gcg.om.GenericQueueEntry.run(GenericQueueEntry.java:237) at java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:886) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:908) at java.lang.Thread.run(Thread.java:619)

没有线程等待锁定，因此进程没有死锁。这些正在进行工作的3个线程只是被阻塞等待Oracle的响应，至少这对我来说是这样的。

看看Oracle，当我查询v $ session时，看起来与这些线程关联的一个连接当前正在执行查询，尽管我看不到sql。

 select ... from v$session where ...; SQL_ADDRESS SQL_HASH_VALUE SQL_ID SQL_CHILD_NUMBER SQL_EXEC_START SQL_EXEC_ID PREV_SQL_ADDR PREV_HASH_VALUE PREV_SQL_ID PREV_CHILD_NUMBER PREV_EXEC_START PREV_EXEC_ID ---------------- -------------- ------------- ---------------- -------------- ----------- ---------------- --------------- ------------- ----------------- --------------- ------------ 00 0 0000000239F59EE8 1483377872 fqr8pndc6p36h 5 26-JUL-12 32080545 00 0 0000000239F59EE8 1483377872 fqr8pndc6p36h 5 26-JUL-12 32080546 0000000148CABD88 1784444892 a16hxxtp5sxyw 0000000239F59EE8 1483377872 fqr8pndc6p36h 5 26-JUL-12 32080544 select * from v$sql where sql_id = 'a16hxxtp5sxyw'; no rows selected

我的问题是：

在我的分析中，我是否正确该过程被阻止等待Oracle的响应？
我应该在Oracle中寻找什么来理解为什么这个过程会阻塞？

更新：

根据有关查看DBA_WAITERS和DBA_LOCKS的注释

 select * from dba_waiters; no rows selected select * from dba_locks where BLOCKING_OTHERS  'Not Blocking'; no rows selected

dba_locks中有98行，但由于所有都是’Not Blocking’，我不认为这是一个锁定问题？这个过程已经处于这种状态超过3个小时，因此现在已经检测到任何死锁。

我认为Oracle实例不是“健康”的理论，但我不知道该怎么看。我有一个请求重启Oracle服务器，但还没有完成。

后续问题：v $ session包含v $ sql中不存在的sql_id是否正常？如果是，在什么条件下？

问题已解决，答案恰好在v $ session表中。显然，Oracle会话可以阻止除锁定之外的其他原因。请注意列FINAL_BLOCKING_SESSION – 它标识作为阻塞的根本原因的会话。我们调查了会话845，发现客户端进程（由MACHINE和PORT标识）不再存在。 DBA杀死会话845并且全部恢复正常。

 SID SERIAL# STATUS PROGRAM TYPE SQL_ID PREV_SQL_ID BLOCKING_SESSION_STATUS BLOCKING_INSTANCE BLOCKING_SESSION FINAL_BLOCKING_SESSION_STATUS FINAL_BLOCKING_INSTANCE FINAL_BLOCKING_SESSION EVENT ------- ------- --------- ---------------- ---- ------------- -------------- ----------------------- ----------------- ---------------- ----------------------------- ----------------------- ---------------------- ---------------------------- 108 22447 ACTIVE Gcg log parser 1 USER fqr8pndc6p36h VALID 1 1581 VALID 1 845 library cache: mutex X 639 40147 ACTIVE Gcg log parser 3 USER fqr8pndc6p36h VALID 1 1581 VALID 1 845 library cache: mutex X 742 34683 ACTIVE Gcg log parser 2 USER a16hxxtp5sxyw fqr8pndc6p36h VALID 1 1581 VALID 1 845 library cache: mutex X

我最近也遇到过这个问题，并使用此查询在Oracle中查找锁定/锁定会话：

 select inst_id||' '||sid||','||serial# inst_sid_s#, username, row_wait_obj#||','||row_wait_block#||','||row_wait_row# obj_lck, blocking_session_Status||' '||blocking_instance||','||blocking_session blk_info, final_blocking_session_Status||' '||final_blocking_instance||','||final_blocking_session f_blk_info, event, seconds_in_wait from gv$session where lockwait is not null order by inst_id;

资料来源： http ： //www.dba-oracle.com/t_final_blocking_session_final_blocking_instance.htm

如果实例本身“不健康”，那么重新启动Oracle服务器应该解决这个问题，并使其恢复到健康状态。在此之前，您可以配置HTTP负载均衡器以检查各种实例的运行状况，方法是轮询URL，并为健康会话返回100到500之间的结果。

对Oracle进行故障排除 – 挂起进程

带有AOP拦截器的Spring 3 MVC @Controller？

Java Grep库

Pipeling hadoop map减少了工作量

Java到C＃：在Generic中扩展

自动执行eclipse插件

Mockito – 期望0匹配，1记录（InvalidUseOfMatchersException）

在并发程序中从BlockingQueue获取对象的最佳方法？

Eclipse和JDK 7

在java.util中获取Error ArrayList不接受参数

从Netbeans构建时自动签名JAR