如何获取分区表每个分区的行数_DBA_TAB_PARTITIONS中的统计信息与分析

1次阅读

DBA_TAB_PARTITIONS.NUM_ROWS 经常不准,因其仅反映上一次指定 granularity=>’PARTITION’ 或 ’ALL’ 的 GATHER_TABLE_STATS 执行后的快照值,DML 后未重收集即过期,甚至为 NULL。

为什么 DBA_TAB_PARTITIONS 里的 NUM_ROWS 经常不准

因为这个字段不实时更新,它只反映上一次执行 dbms_stats.gather_table_stats(且指定 granularity => 'partition''all')后的快照值。如果分区有大量 dml 但没重新收集统计信息,num_rows 就是过期的——甚至可能是 null(表示从未收集过该分区统计)。

常见错误现象:SELECT COUNT(*) FROM tab PARTITION (p202401) 返回 120 万,但 DBA_TAB_PARTITIONS.NUM_ROWS 显示 89 万或 NULL

  • 使用场景:快速估算分区规模、判断是否需要重收集、排查查询计划偏差
  • 参数差异:granularity 必须设为 'PARTITION''ALL',设成 'GLOBAL' 不会填充各分区的 NUM_ROWS
  • 性能影响:对大表单分区执行 COUNT(*) 可能扫描全分区,而统计信息读取是毫秒级

如何安全、准确地获取每个分区的当前行数

最可靠的方式是结合统计信息(快)和按需采样(准),而不是盲目扫全表。优先走 DBA_TAB_PARTITIONS + 刷新策略,必要时再补查。

  • 先检查统计是否可用:SELECT PARTITION_NAME, NUM_ROWS, LAST_ANALYZED FROM DBA_TAB_PARTITIONS WHERE TABLE_NAME = 'YOUR_TABLE' AND TABLE_OWNER = 'OWNER'
  • NUM_ROWS IS NULLLAST_ANALYZED 超过 1 天,说明统计陈旧,应触发收集:EXEC DBMS_STATS.GATHER_TABLE_STATS('OWNER', 'YOUR_TABLE', granularity => 'PARTITION', degree => 4)
  • 若需即时精确值且分区不大(比如 SELECT COUNT(*) FROM OWNER.YOUR_TABLE PARTITION (P202401)
  • 若分区极大,用采样估算:SELECT /*+ SAMPLE(1) */ COUNT(*) * 100 FROM OWNER.YOUR_TABLE PARTITION (P202401)(注意:采样率需根据实际数据分布调整)

DBA_TAB_PARTITIONS.NUM_ROWS 和实际行数差几倍?什么情况下会严重失真

失真不是随机的,往往集中在三类分区:刚交换进来的新分区(EXCHANGE PARTITION 后未收集)、频繁 INSERT/DELETE 但无定期统计任务的热分区、以及启用 INMEMORY 但统计未覆盖内存格式的分区。

  • 典型错误现象:NUM_ROWS = 0 但分区里明明有数据(常见于 EXCHANGE 后忘记 GATHER
  • 兼容性影响:Oracle 12c 及以后支持 INCREMENTAL 统计,开启后可大幅降低全表重收集开销,但需确保 DBMS_STATS.SET_TABLE_PREFS'INCREMENTAL' 设为 'TRUE'
  • 容易被忽略的点:NUM_ROWS 是优化器估算基数的依据,失真会导致执行计划选错索引或走错连接方式,比“看数不准”后果更严重

脚本化批量检查与修复分区行数统计

别手动一条条查,写个简单 PL/SQL 块自动识别并处理异常分区。核心逻辑是:找出 NUM_ROWS IS NULLLAST_ANALYZED < SYSDATE - 1 的分区,然后调用 GATHER

BEGIN   FOR r IN (SELECT TABLE_OWNER, TABLE_NAME, PARTITION_NAME     FROM DBA_TAB_PARTITIONS     WHERE TABLE_NAME = 'YOUR_TABLE'       AND (NUM_ROWS IS NULL OR LAST_ANALYZED < SYSDATE - 1)   ) LOOP     DBMS_STATS.GATHER_TABLE_STATS(ownname => r.TABLE_OWNER,       tabname => r.TABLE_NAME,       partname => r.PARTITION_NAME,       granularity => 'PARTITION');   END LOOP; END;

运行前确认用户有 ANALYZE ANY 或目标表的 ANALYZE 权限;生产环境建议加 degree => 2 控制并发,避免资源争抢。

分区多、数据量大的时候,LAST_ANALYZED 时间戳和真实数据变化之间总有延迟,指望它完全实时不现实——关键是建立匹配业务节奏的统计刷新机制,而不是每次都要“立刻知道准确数”。

text=ZqhQzanResources