检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
gds_check用于对GDS部署环境进行检查,包括操作系统参数、网络环境、磁盘占用情况等,也支持对可修复系统参数的修复校正,有助于在部署运行GDS时提前发现潜在问题,提高执行成功率。 注意事项 执行脚本前需设置环境变量,可参考《开发指南》中“导入数据>通过外表并行导入>安装配置和启动GDS”章节。 脚本需要在python
空间。 检查表有无索引支撑,建议例行重建索引。 数据库经过多次删除操作后,索引页面上的索引键将被删除,造成索引膨胀。例行重建索引,可有效的提高查询效率。 对业务进行优化,分析能否将大表进行分表设计。 处理方法 GaussDB(DWS)提供了分析查询和改进查询的方法,并且为用户提供
海量大数据场景下,随着业务和数据量的不断增长,数据存储与消耗的资源也日益增长。根据业务系统中用户对不同时期数据的不同使用需求,对膨胀的数据进行“冷热”分级管理,不仅可以提高数据分析性能还能降低业务成本。针对数据使用的一些场景,可以将数据按照时间分为:热数据、冷数据。 冷热数据主要从数据访问频率、更新频率进行划分。
数据格式等信息来指定导出的数据文件,利用多DN并行的方式,将数据从GaussDB(DWS)数据库导出到外部,存放在HDFS文件系统上,从而提高整体导出性能。 准备环境 已创建DWS集群,需确保MRS和DWS集群在同一个区域、可用区、同一VPC子网内,确保集群网络互通。 创建MRS分析集群
GaussDB(DWS)查询时索引失效场景解析 对表建立索引可提高数据库查询性能,但有时会出现建立了索引,但查询计划中却发现索引没有被使用的情况。针对这种情况,本文将列举几种常见的场景和优化方法。 场景一:返回结果集很大 以行存表的Seq Scan和Index Scan为例: Seq
CREATE INDEX 功能描述 在指定的表上创建索引。 索引可以用来提高数据库查询性能,但是不恰当的使用将导致数据库性能下降。建议仅在匹配如下某条原则时创建索引: 经常执行查询的字段。 在连接条件上创建索引,对于存在多字段连接的查询,建议在这些字段上建立组合索引。例如,select
组件,并协同完成数据加工等任务时,DWS实时数仓中的HStore表提供了Binlog功能,通过消费Binlog数据来实现上下游的数据同步,提高数据加工的效率。 传统的数据比如MySQL数据库等,支持通过Binlog来记录数据库中所有数据的变化,但相比于MySQL的Binlog主要
组件,并协同完成数据加工等任务时,DWS实时数仓中的HStore表提供了Binlog功能,通过消费Binlog数据来实现上下游的数据同步,提高数据加工的效率。 传统的数据比如MySQL数据库等,支持通过Binlog来记录数据库中所有数据的变化,但相比于MySQL的Binlog主要
创建和管理GaussDB(DWS)索引 索引可以提高数据的访问速度,但同时也增加了插入、更新和删除操作的处理时间。所以是否要为表增加索引,索引建立在哪些字段上,是创建索引前必须要考虑的问题。需要分析应用程序的业务处理、数据使用、经常被用作查询的条件或者被要求排序的字段来确定是否建立索引。
创建和管理GaussDB(DWS)索引 索引可以提高数据的访问速度,但同时也增加了插入、更新和删除操作的处理时间。所以是否要为表增加索引,索引建立在哪些字段上,是创建索引前必须要考虑的问题。需要分析应用程序的业务处理、数据使用、经常被用作查询的条件或者被要求排序的字段来确定是否建立索引。
创建和管理索引 索引可以提高数据的访问速度,但同时也增加了插入、更新和删除操作的处理时间。所以是否要为表增加索引,索引建立在哪些字段上,是创建索引前必须要考虑的问题。需要分析应用程序的业务处理、数据使用、经常被用作查询的条件或者被要求排序的字段来确定是否建立索引。 索引类型 bt
常见性能参数调优设计 在使用数据库的时候,为了提高集群的性能,有多种方式去调优,从硬件配置到软件驱动升级,再到数据库的内部参数调整。本章节旨在介绍一些常用参数以及推荐配置。 query_dop 设置用户自定义的查询并行度。 SMP架构是一种利用富余资源来换取时间的方案,计划并行之
海量大数据场景下,随着业务和数据量的不断增长,数据存储与消耗的资源也日益增长。根据业务系统中用户对不同时期数据的不同使用需求,对膨胀的数据本身进行“冷热”分级管理,不仅可以提高数据分析性能还能降低业务成本。 例如,在网络流量分析系统中,用户可能对最近一个月内安全事件和网络访问情况感兴趣,而很少关注几个月前的数据。
时,系统只会扫描满足条件的分区,避免全表扫描,从而提升查询性能。 分区表的优势: 改善查询性能。对分区对象的查询可以仅搜索自己关心的分区,提高检索效率。 增强可用性。如果分区表的某个分区出现故障,表在其他分区的数据仍然可用。 提升可维护性。对于需要周期性删除的过期历史数据,可以通
时,系统只会扫描满足条件的分区,避免全表扫描,从而提升查询性能。 分区表的优势: 改善查询性能。对分区对象的查询可以仅搜索自己关心的分区,提高检索效率。 增强可用性。如果分区表的某个分区出现故障,表在其他分区的数据仍然可用。 提升可维护性。对于需要周期性删除的过期历史数据,可以通
时,系统只会扫描满足条件的分区,避免全表扫描,从而提升查询性能。 分区表的优势: 改善查询性能。对分区对象的查询可以仅搜索自己关心的分区,提高检索效率。 增强可用性。如果分区表的某个分区出现故障,表在其他分区的数据仍然可用。 提升可维护性。对于需要周期性删除的过期历史数据,可以通
分析表 执行计划生成器需要使用表的统计信息,以生成最有效的查询执行计划,提高查询性能。因此数据导入完成后,建议执行ANALYZE语句生成最新的表统计信息。统计结果存储在系统表PG_STATISTIC中。 分析表 ANALYZE支持的表类型有行/列存表、HDFS表、ORC/CARB
数据格式等信息来指定导出的数据文件,利用多DN并行的方式,将数据从GaussDB(DWS)数据库导出到外部,存放在HDFS文件系统上,从而提高整体导出性能。 CN只负责任务的规划及下发,数据导出工作由DN负责,并释放CN资源,使其有能力处理外部请求。 每个DN都参与数据导出,使各
gds_install 背景信息 gds_install是用于批量安装gds的脚本工具,可大大提高GDS部署效率。 注意事项 执行脚本前需设置环境变量,可参考《开发指南》中“导入数据>通过外表并行导入>安装配置和启动GDS”章节。 脚本需要在python 3环境下运行。 必须在r
候,发现sql时快时慢,一般是执行计划发生了变化,统计信息的需要调整采样率。set default_statistics_target可以提高采样率,对优化器生成最优计划有所帮助。 重新执行analyze。详细信息请参见ANALYZE | ANALYSE。 若用户想要知道是否是磁