数据仓库服务 GAUSSDB(DWS)-使用集群前必读:性能管理要求:GaussDB(DWS)集群性能基线

时间:2024-12-27 09:42:04

GaussDB (DWS)集群性能基线

本节主要介绍GaussDB(DWS)各项资源的推荐值风险值。

集群资源水位超过推荐值后,运维人员需要及时介入处理,防止节点异常、主备切换等故障场景下的性能降级。

集群资源水位超过风险值后,集群会有很高的过载风险,应禁止继续上线新业务。

此时,需要通过业务优化或错峰调度等手段尽快降低集群整体负载,必要时可以进行集群拆分或扩容防止影响整体性能。

表1 集群性能容量风险和建议

性能指标

建议值

超过建议值的影响

推荐措施

风险值

超过风险值的影响

推荐措施

CPU使用率

60%以下

在主备非均衡或集群降级状态下,部分节点的CPU使用率有过载风险,引发性能降级。

建议配置资源池进行资源隔离,参考GaussDB(DWS)资源负载管理。通过topsql抓取高CPU语句进行业务优化,参见监控并诊断GaussDB(DWS)集群TopSQL

80%

出现严重的CPU争抢,导致Stream等算子执行时间劣化,集群整体性能受到严重影响。

通过业务错峰、业务拆分、业务优化、集群扩容等手段降低高峰期CPU负载。

也可以设置资源池CPU限额与配额,参见高CPU系统调优方案

CPU倾斜率

15%以下

出现计算倾斜,导致部分语句无法充分发挥分布式下的最佳性能。

建议通过异常规则、配置熔断参数等手段对倾斜语句提前熔断;日常对此类业务进行优化整改。

30%

高峰期容易出现单节点CPU过载,木桶效应导致集群整体劣化,无法充分发挥其他节点性能。

建议通过异常规则、配置熔断参数等手段对倾斜语句提前熔断;日常对此类业务进行优化整改。

IO使用率

60%以下(机械硬盘)

在主备非均衡或集群降级状态下,部分节点的IO使用率有过载风险,引发性能降级,机械硬盘尤其容易出现非均衡状态下的IO过载。

使用iowatcher工具抓取IO高的业务,通过索引、分区剪枝、行列存整改等常用方法,降低磁盘IO使用率。

参见降低IO的处理方案

90%(机械硬盘)

出现比较严重的IO争抢,导致表扫描等算子执行时间劣化,集群整体性能受到影响。

建议对高IO语句优化和错峰,机械硬盘集群建议替换为固态硬盘保证IO性能,提前规划集群扩容减少单节点IO吞吐量。

IO读写时延

400ms以下

进行数据读写时性能出现波动,查询时间不稳定,出现偶发性能劣化。

使用iowatcher工具抓取IO高的业务,通过索引、分区剪枝、行列存整改等常用方法,降低磁盘IO使用率,读写时延会随之降低。

参见降低IO的处理方案

1000ms

数据读写性能明显劣化,实时入库业务出现积压,整体性能出现劣化。

排查是否出现磁盘坏道、raid卡故障等硬件故障;同时建议对高IO语句、高下盘语句、高并发语句进行优化整改,进行业务错峰和业务拆分。

动态内存使用率

80%以下

当业务流量突增或复杂灵活查询执行时,会有内存不足报错的风险。

配置异常规则和内存熔断;对高内存业务进行优化整改。

降内存方法可参见降低内存的处理方案

90%

出现CCN排队,业务出现内存不足报错,有进程OOM风险。

配置异常规则和内存熔断;对高内存业务进行优化整改;

磁盘空间使用率

70%以下

SQL下盘量较大,磁盘使用率超过90%时,有只读风险。

配置下盘熔断,低峰期进行数据清理和脏页清理,提前进行扩容规划。

更多可参见磁盘使用率高处理方案

80%

出现SQL下盘后只读风险增加。

配置下盘熔断,低峰期进行数据清理和脏页清理,提前进行扩容规划。

磁盘空间倾斜率

15%以下

倾斜磁盘超过90%的风险变高。

进行存储倾斜整改。

20%

存储倾斜引发CPU、IO、内存倾斜,影响集群整体性能;倾斜磁盘超过90%的风险变高。

进行存储倾斜整改。

support.huaweicloud.com/mgtg-dws/dws_01_00015.html