db2数据库常见问题处理

JAY.LIN 收录于数据库

2021-12-13 约 3849 字预计阅读 8 分钟

https://bing.ee123.net/img/rand?artid=84926044

db2数据库常见问题处理

1 数据库实例挂起

现象：

数据库操作无返回，应用程序无响应，查看数据库实例发现挂起。

分析：

1、执行ps -ef|grep db2sysc 确认系统中是否存在db2sysc 进程，判断数据库实例是否出现异常。

2、执行db2gcf -s -p 分区号-i 实例名确认实例状态是否为Available。

处理：

1、执行如下命令收集db2fodc -hang 数据：

db2fodc –hang –alldbs

2、如果收集的时间过长，可适当减小收集范围：

db2pd –stack all –repeat 5

db2pd –latch –repeat 5

3、使用DB2 数据库系统用户执行db2_kill 命令杀掉DB2 进程，使用ps –ef|grep db2 命令确认DB2 进程已全部清除，然后执行db2start 命令启动数据库，再执行

db2 connect to db_name；

db2 “select * from syscat.bufferpools”

验证DB2 数据库操作正常。

4、重新启动DB2 后再使用db2support 收集相关信息：

db2support /tmp/db2data -d <db_name> -a -g -l -r -s

5、在AIX 系统中可执行snap -gc 命令、在Linux 系统可执行support –a 命令收集操作系统信息，以帮助分析数据库实例进程为何出现异常。

2 数据库实例崩溃

现象：

DB2 进程异常结束，无法提供服务。

分析：

执行ps –ef |grep db2sysc 发现DB2 进程消失。

处理：

1、使用DB2 数据库系统用户执行db2start 命令启动数据库，并执行

db2 connect to db_name；

db2 “select * from syscat.bufferpools”

验证DB2 数据库操作正常。

2、执行db2support . –d db_name -c –s –f 命令收集数据，执行

db2trc on -t -f server.dmp；

db2trc fmt server.dmp server.fmt;

db2trc flw -t server.dmp server.flw

命令开启db2trc，监控问题是否重现，收集trace 数据。

3 数据库连接数满

现象：

应用程序连接数据库时出现SQL1040N The maximum number of applications is already connected to the database 报错，无法建立新的数据库连接。

分析：

1、执行db2 get db cfg for sample | grep –i maxappls 查看当前数据库maxappls 参数值。

2、执行db2pd –db db_name –app 或者db2 list applications |wc –l 检查应用程序的总连接数是否已超过数据库最大允许连接数。

处理：

执行db2 update db cfg for sample using maxappls automatic 命令更新maxappls 参数，使之自动增长。

4 数据库事务日志满

现象：

单个交易处理数据量大，导致日志满情况发生。

分析：

执行如下查询，可检查占用日志较大的交易：

db2 “SELECT SUBSTR(DB_NAME,1,8) AS DB_NAME, AGENT_ID, ROWS_READ,ROWS_WRITTEN, UOW_LOG_SPACE_USED, UOW_START_TIME, UOW_STOP_TIME,ELAPSED_EXEC_TIME_S FROM SYSIBMADM.SNAPAPPL”

处理：

1、若数据库日志满，DB2 将强制回滚事务。可通过db2pd –db db_name –apinfo 数据库名察看应用状态，应该处于rollback 状态。

2、DB2 数据库有2 个参数可以控制每个交易使用的日志量，避免单个交易占用索引日志情况，可执行

db2 update dbm cfg using MAX_LOG 80 和db2 update dbm cfg usingNUM_LOG_SPAN 80

设置该参数为80%，避免单个大交易的情况。

3、规避方法：

当数据库日志空间存在用尽风险时，可以通过在线增加logsecond 参数来增加可用的日志空间，避免出现日志空间满的情况。在扩展此参数前，需确认数据库日志所在的文件系统有空闲空间。

确认数据库的日志路径:

db2 get db cfg for |grep “Path to log files”

增加logsecond:

单分区环境：

db2 update db cfg using logsecond

注：num 为参数logsecond 的新的值。

多分区环境：

db2_all “db2 update db cfg using logsecond ”

注：num 为参数logsecond 的新的值。

5 数据库事务日志误删

现象：

数据库活动日志被误删除。

分析：

进入DB2 活动日志目录下，检查发现日志文件已经被误删除。

处理：

通过最新的数据库备份进行恢复，执行恢复之后前滚日志。命令：

db2 RESTORE DATABASE 数据库名 FROM 备份文件位置" TAKEN AT 时间戳 to 待恢复的实例名" logtarget 日志目录REPLACE EXISTING redirect

注：日志重置后，强烈建议数据库重建，避免存在隐患。

6 数据库表空间满

现象：

巡检发现数据库日志中出现如下错误信息：

FUNCTION: DB2 UDB, buffer pool services, sqlbDMScheckObjAlloc, probe:830

MESSAGE : ZRC=0x85020021=-2063466463=SQLB_END_OF_CONTAINER “DMS Containerspace full”

分析：

1、执行如下SQL 语句，确认表空间使用率：

$db2 “connect to 数据库名 user 用户 using 密码

$db2 “select substr(a.tbsp_name,1,18) as name,substr(a.tbsp_type,1,10) as

tbstype,a.TBSP_USING_AUTO_STORAGE as AUTO_STORAGE,substr(a.tbsp_state,1,8) as

state,a.tbsp_total_size_kb/1024 as TotalMB ,a.TBSP_PAGE_TOP*a.TBSP_PAGE_SIZE/1024/1024 as

top_size_mb,a.tbsp_used_size_kb/1024 as UsedMB, a.TBSP_UTILIZATION_PERCENT as

UsedPer ,b.CONTAINER_NAME from sysibmadm.tbsp_utilization a, sysibmadm.SNAPCONTAINER

b where tbsp_type=‘DMS’ and a.TBSP_ID=b.TBSP_ID order by AUTO_STORAGE,UsedPer desc”

2、执行如下命令确认容器类型：

单分区环境

$db2pd -d -tab

多分区环境：

$db2_all “db2pd -d -tab”

处理：

执行

$db2 “alter tablespace extend(all NG)”

扩容表空间。

注：表空间增加的大小为容器数量*N，N 为每个容器增加的大小。

7 数据库表空间状态异常

现象：

系统监控报警数据库表空间状态异常。

分析：

1、由于存储、操作或者权限等原因，会导致DB2 表空间状态异常。此时，可查询表空间16 进制的状态值。命令：

$db2 list tablespaces show detail|grep -i state

2、根据返回的16 进制值，确认表空间状态。命令：

$db2tbst

3、表空间状态信息对应的描述：


Return code	Description	描述
0x0	Normal	正常
0x1	Quiesced: SHARE	静止态共享
0x2	Quiesced: UPDATE	静止态更新
0x4	Quiesced: EXCLUSIVE	静止态排它
0x8	Load pending	载入挂起
0x10	Delete pending	删除挂起
0x20	Backup pending	备份挂起
0x40	Roll forward in progress	正在回滚
0x80	Roll forward pending	回滚挂起
0x100	Restore pending	存储挂起
0x100	Recovery pending (not used)	恢复挂起
0x200	Disable pending	禁用挂起
0x400	Reorg in progress	正在重组
0x800	Backup in progress	正在备份
0x1000	Storage must be defined	存储器未被指定
0x2000	Restore in progress	正在恢复
0x4000	Offline and not accessible	表空间不可访问
0x8000	Drop pending	删除挂起
0x2000000	Storage may be defined	存储器需被指定
0x4000000	StorDef is in ‘final’ state	存储器终止
0x8000000	StorDef was changed prior to rollforward	存储器被改变至回滚状态
0x10000000	DMS rebalancer is active	表空间的容器重新分布
0x20000000	TBS deletion in progress	表空间删除
0x40000000	TBS creation in progress	表空间建立

处理：

常见异常状态的处理方式：


状态	状态值	原因	状态描述及处理方式
Backup Pending	0x20	归档日志下进行LOAD 操作导致	对状态异常的表空间执行备份，命令： db2 backup database db_name tablespace(syscatspace, userspace1) to/dbbackupdir
Offline and Not Accessible	0x4000	1．表空间使用的物理设备不可访问 2．物理设备权限不对	修复物理设备问题，保证权限正确,然后修改表空间为online 状态，命令： db2 ALTER TABLESPACE SWITCH ONLINE
Restore Pending	0x100	恢复过程中，表空间对应的物理设备不可用，表空间就处于这种状态。	必须恢复单个表空间（或者是整个数据库）。命令： db2 restore database db_name tablespace (XXX) 如果是归档日志，则前滚日志，命令： db2 rollfoward db db_name to end of logs and complete
Roll Forward Pending	0x80	由于物理设备不可用或者权限问题，导致CRASH RECOVERY 时日志无法前滚，出现上述问题；	必须前滚数据库，命令： db2 rollfoward db db_name to end of logs and complete
Storage Must be Defined	0x1000	在将恢复操作重定向到新数据库期间，如果省略了设置表空间容器的阶段，或者，如果在设置表空间容器的阶段期间无法获得指定的容器，那么数据库的表空间就会处于这种状态。	需要重新制定表空间使用的容器，命令： db2 SET TABLESPACE CONTAINERS FOR 1 USING (容器名)

8 数据库表或数据误删

现象：

数据库中的表或数据被误删除。

分析：

与操作人员确认误删除发生的时间以及被删除的数据内容。

处理：

1、如果该表或数据所在的表空间不大，恢复时间较短，且该表所在的表空间已启用DROPPED TABLE RECOVERY 选项，建议采用数据库前滚恢复的方式恢复表或数据。可通过如下命令查询字典表SYSCAT.TABLESPACES 来验证表空间是否已开启DROPPED TABLE RECOVERY选项：

db2 “select tbspace,drop_recovery from syscat.tablespaces”

TBSPACE DROP_RECOVERY

SYSCATSPACE N

TEMPSPACE1 N

USERSPACE1 Y

ALANSPACE1 Y

ALANSPACE2 Y

SYSTOOLSPACE Y

2、尝试恢复数据库：

（a）、执行db2 restore database irmdb from D:\IBM\alanbak taken at 20100628154742 into irmdb命令，将会显示SQL2539W 警告！正在复原至与备份映像数据库相同的现有数据库。

数据库文件将被删除。想要继续吗？（y/n）

回答Y。

DB20000I RESTORE DATABASE 命令成功完成。

（b）、执行db2 list history dropped table all for irmdb从历史文件中检索已经丢失表对象的ID。列示irmdb 的历史记录文件：

匹配的文件条目数= 1

Op 对象时间戳记+序列类型设备最早日志当前日志备份标识

D T 20100628154949 000000000000f40200030004

“DB2ADMIN”.“ALANTEST1” 驻留在1 表空间中：00001 ALANSPACE1

注释：DROP TABLE

开始时间：20100628154949

结束时间：20100628154949

状态：A

EID：13

DDL: CREATE TABLE “DB2ADMIN”.“ALANTEST1” ( “ID” INTEGER , “NAME” VARCHAR(10) ) IN “ALANSPACE1” ;

其中我们可以查看一下备份标识:000000000000f40200030004，这个信息对于恢复表非常重要。

（c）、Rollforward数据库到日志结尾,同时生成恢复导入文件(我们需要利用上面的备份标识000000000000f40200030004来恢复数据库,同时准备出一个导出目录D:\IBM\exporttab)。执行如下命令：

db2 “rollforward database irmdb to end of logs and stop tablespace (alanspace1) online recover

dropped table 000000000000f40200030004 to D:\IBM\exporttab”

前滚状态

输入数据库别名= irmdb

节点数已返回状态= 1

节点号= 0

前滚状态= 未暂挂

下一个要读取的日志文件=

已处理的日志文件= S0000002.LOG - S0000004.LOG

上次落实的事务= 2010-06-28-07.49.50.000000 UTC

DB20000I ROLLFORWARD 命令成功完成。

（d）、此时我们可以看到在D:\IBM\exporttab\NODE0000目录下生成了一个data文件,内容就是我们表中丢失的数据。然后，我们用LIST HISTORY中的DDL来重建表结构并IMPORT相应的数据，如下：

DDL: CREATE TABLE “DB2ADMIN”.“ALANTEST1” ( “ID” INTEGER , “NAME” VARCHAR(10) ) IN “ALANSPACE1” ;

db2 CREATE TABLE “DB2ADMIN”.“ALANTEST1” ( “ID” INTEGER , “NAME” VARCHAR(10) )

DB20000I SQL 命令成功完成。

db2 import from D:\IBM\exporttab\NODE0000\data of del insert into db2admin.alantest1

SQL3109N 实用程序正在开始从文件"D:\IBM\exporttab\NODE0000\data” 装入数据。

SQL3110N 实用程序已完成处理。从输入文件读了"5" 行。

SQL3221W …开始COMMIT WORK。输入记录计数= “5”。

SQL3222W …对任何数据库更改的COMMIT 都成功。

SQL3149N 处理了输入文件中的"5" 行。已将"5" 行成功插入表中。拒绝了"0" 行。

读取行数= 5

跳过行数= 0

插入行数= 5

更新行数= 0

拒绝行数= 0

落实行数= 5

3、如果该表所在的表空间很大，恢复时间远大于停机窗口，建议根据之前的建表语句重建表，并利用最新的逻辑备份导入最新的备份数据，手工补做数据丢失的时间段业务。

9 死锁或超时，导致当前事务回滚

现象：

当前事务因死锁或超时而回滚，提示信息如下：

SQL0911N The current transaction has been rolled back because of a deadlock or timeout. Reason code “2”

分析：

根据报错的具体信息，可以判定，原因为死锁导致超时。

处理：

为了帮助避免死锁或锁定超时，可以采用如下两种方法

1、对长时间运行的应用程序或有可能遇到死锁的应用程序频繁发出COMMIT 操作（若有可能的话）。

2、修改数据库参数，适当地增大锁超时时间（此处60 秒为例），命令如下：

db2 update db cfg using LOCKTIMEOUT 60