检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
下推 GaussDB(DWS)是分布式数据库,其可以利用多DN分布式并行执行查询计划,即将CN中的查询计划下发到各DN中并行执行。这种行为称为下推。与将数据抽取到CN上执行查询的方式相比,下推可以大幅提升查询性能。
在分布式环境中未使用ORDER BY语句时每次执行相同的SELECT语句返回结果顺序可能不一样,这会导致UPSERT语句的执行结果不符合预期。 不支持多次更新。插入多组数据间如果有冲突,则会报错(例外:当查询计划是PGXC计划时)。
CREATE TABLE PARTITION 功能描述 创建分区表。逻辑上的一张表根据某种方案分成几张物理块进行存储,这张逻辑上的表称之为分区表,物理块称之为分区。分区表是一张逻辑表,不存储数据,数据实际是存储在分区上的。 常见的分区策略包括:范围分区(Range Partitioning
预写式日志 设置 检查点 归档 父主题: GaussDB(DWS)数据库GUC参数
1 SELECT * FROM customer_info; 两阶段事务 GaussDB(DWS)属于分布式share-nothing架构,表的数据分布在不同的节点上。客户端的一条或多条语句可能会同时修改多个节点上的数据,这种情况下,会产生分布式事务。
1 SELECT * FROM customer_info; 两阶段事务 GaussDB(DWS)属于分布式share-nothing架构,表的数据分布在不同的节点上。客户端的一条或多条语句可能会同时修改多个节点上的数据,这种情况下,会产生分布式事务。
foreign_table_name 需要分析的特定外表的表名(可能会带模式名),该表的数据存放于HDFS分布式文件系统中。 取值范围:已有的表名。 FOREIGN TABLES 分析所有当前用户权限下,数据位于HDFS分布式文件系统中的HDFS外表。
其它选项 enable_cluster_resize 参数说明:标识当前会话是否为扩容重分布会话。该参数应仅限用于扩容重分布会话,其他业务会话不要设置该参数。 参数类型:SUSET 取值范围:布尔型 on表示标识当前会话为扩容重分布会话,可以执行重分布专有SQL语句。 off表示标识当前会话为非扩容重分布会话
在分布式环境中未使用ORDER BY语句时每次执行相同的SELECT语句返回结果顺序可能不一样,这会导致UPSERT语句的执行结果不符合预期。 不支持多次更新。
更改数据库时区 更改Timezone 数据库时间与系统时间不一致,如何更改数据库默认时区 10 怎么查函数定义 访问权限查询函数 查询视图定义 系统信息函数 11 技术指标 支持的分区表大小 单表最大数据量 表支持的最大列数 技术指标 12 开发人员选项 控制查询优化器是否使用分布式框架
倾斜造成以下负面影响: SQL的性能会非常差,因为数据只分布在部分DN,那么SQL运行的时候就只有部分DN参与计算,没有发挥分布式的优势。 会导致资源倾斜,尤其是磁盘。可能部分磁盘的空间已经接近极限,但是其他磁盘利用率很低。 可能出现部分节点CPU过高等问题。
当前分布式事务框架下无法避免CN之间的互连,为了减少GTM上线程过多导致负载过大,建议CN配置数目≤10个。 GaussDB(DWS)通过CCN(Central Coordinator )负责集群内的资源全局负载控制,以实现自适应的动态负载管理。
案例:选择合适的分布列 分布列用于将数据分布到不同的节点上,划分均衡可以避免数据倾斜。 在进行关联查询时,尽量选择查询中的关联条件作为分布键。当关联条件作为分布键时,相关数据都分布在DN本地,将减少DN之间的数据流动代价,提升查询速度。 优化前 将a作为t1和t2的分布列,表定义如下
DDL 213 DML 214 表达式 215 元数据 216 优化器 查询重写 221 路径生成 222 计划生成 223 计划缓存 224 Analyze 225 utile接口 226 执行器 行执行引擎 231 向量化执行引擎 232 执行诊断信息 233 LLVM 234 分布式执行框架
查询性能好 多表关联等复杂AP查询场景下,更完善的分布式查询计划与分布式执行器带来的性能优势,支持复杂的子查询和存储过程。 入库快 彻底解决列存CU锁冲突问题,支持高并发的更新入库操作,典型场景下,并发更新性能是之前的百倍以上。
存算一体(单机部署)不支持分布式模式,因此不支持扩缩容、逻辑集群、资源管理等操作。 存算一体(单机部署)不支持快照、监控面板、MRS数据源等功能。
Streaming是一个特殊的算子,它实现了分布式架构的核心数据shuffle功能,Streaming共有三种形态,分别对应了分布式结构下不同的数据shuffle功能: Streaming (type: GATHER):作用是coordinator从DN收集数据。
案例:选择合适的分布列 分布列用于将数据分布到不同的节点上,划分均衡可以避免数据倾斜。 在进行关联查询时,尽量选择查询中的关联条件作为分布键。当关联条件作为分布键时,相关数据都分布在DN本地,将减少DN之间的数据流动代价,提升查询速度。 优化前 将a作为t1和t2的分布列,表定义如下
查询性能好 多表关联等复杂AP查询场景下,更完善的分布式查询计划与分布式执行器带来的性能优势,支持复杂的子查询和存储过程。 入库快 彻底解决列存CU锁冲突问题,支持高并发的更新入库操作,典型场景下,并发更新性能是之前的百倍以上。
当前分布式事务框架下无法避免CN之间的互连,为了减少GTM上线程过多导致负载过大,建议CN配置数目≤10个。 CCN 中心协调节点(Central Coordinator)。