数据仓库服务 GAUSSDB(DWS)-更新统计信息:场景和策略

时间:2025-03-05 09:29:07

场景和策略

列举了常见的数据加工场景和对应的统计信息收集策略。

表2 统计信息收集策略

场景

特点

策略

流式增量加工

数据流式增量变化,无合理ANALYZE时机

开启动态采样,查询按需自动收集统计信息,且全局共享

在线批量加工

数据湖

数据加工与查询会并发,要求查询稳定

开启动态采样,或一个事务中完成数据加工和ANALYZE。

begin;
truncate table or partition;
copy/merge/insert overwrite
ANALYZE (light) tablename;
end;

分区并行加工

不同分区并发加工数据

开启“动态采样”或“手动light采样”,同表可并发收集

宽表场景

百列以上的宽表

1. 启动动态采样的自动谓词管理。

2. 仅收集前N列的统计信息。

3. 根据查询中常用谓词,可列级设置是否参与采样。

大表场景

表的数据量大,变化难以达到阈值

统计信息易变

调低动态采样触发阈值。

特征敏感场景

数据特征易变,查询计划不稳定

需要强制收集

1. 调低动态采样触发阈值。

2. 在SQL中通过HINT方式强制light动态采样。

3. 清空并冻结统计信息,查询每次都会重新收集且不共享。

高并发场景

同一张表会高并发查询(10并发以上)

同时触发动态采样占用资源多

1. 关闭并发,其它查询不使用最新统计信息。

2. 其它查询等最新统计信息生成,再执行查询(开发中)。

流式性能敏感

流式加工,秒级查询或整体资源高水位

表级或SQL级禁止动态采样,依靠后台轮询采样。

批量性能敏感

批量加工,秒级查询或整体资源高水位

加工时手动收集统计信息。

support.huaweicloud.com/devg-910-dws/dws_04_0436.html