检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
PGXC_DEADLOCK PGXC_DEADLOCK视图获取导致分布式死锁产生的锁等待信息。 目前,PGXC_DEADLOCK视图只收集locktype为relation、partition、page、tuple和transactionid的锁等待信息。 表1 PGXC_DEADLOCK字段
审视和修改表定义 在分布式框架下,数据分布在各个DN上。一个或者几个DN的数据存在一块物理存储设备上,好的表定义至少需要达到以下几个目标: 表数据均匀分布在各个DN上,以防止单个DN对应的存储设备空间不足造成集群有效容量下降。选择合适分布列,避免数据分布倾斜可以实现该点。 表Sc
如果GaussDB(DWS)建表时没有指定分布列,数据会怎么存储? 8.1.2及以上集群版本,可通过GUC参数default_distribution_mode来查询和设置表的默认分布方式。 如果建表时没有指定分布列,数据会以下几种场景来存储: 场景一 若建表时包含主键/唯一约束,则选取HA
点添加完成后,原节点存储的业务数据明显多于新节点,此时系统自动在所有节点重新分布保存数据。在开始做重分布时,系统会自动执行一次vacuum,从而释放了存储空间,因此,扩容后已使用存储容量减少了很多。 处理方法 建议您定期做vacuum full清理与回收存储空间,防止数据膨胀。
目前GaussDB(DWS)可以支持绝大多数常用函数的下推,不下推函数的场景主要出现在自定义函数属性定义错误的情况下。 不下推语句的执行方式没有利用分布式的优势,其在执行过程中,相当于把大量的数据和计算过程汇集到一个节点上去做,因此性能通常非常差。 分析过程 通过EXPLAIN VERBOSE打印语句执行计划。
仔细设计,能够尽可能的减少不必要的数据shuffle。 选择存储方案 【建议】表的存储类型是表定义设计的第一步,用户业务类型是决定表的存储类型的主要因素,表存储类型的选择依据请参考表1。 表1 表的存储类型及场景 存储类型 适用场景 行存 点查询(返回记录少,基于索引的简单查询)。
功能描述 在当前数据库创建一个HDFS或OBS外表,用来访问存储在HDFS或者OBS分布式集群文件系统上的结构化数据。也可以导出ORC格式数据到HDFS或者OBS上。 数据存储在OBS:数据存储和计算分离,集群存储成本低,存储量不受限制,并且集群可以随时删除,但计算性能取决于OBS访
功能描述 在当前数据库创建一个HDFS或OBS外表,用来访问存储在HDFS或者OBS分布式集群文件系统上的结构化数据。也可以导出ORC格式数据到HDFS或者OBS上。 数据存储在OBS:数据存储和计算分离,集群存储成本低,存储量不受限制,并且集群可以随时删除,但计算性能取决于OBS访
在当前数据库创建一个HDFS或OBS外表,用来访问存储在HDFS或者OBS分布式集群文件系统上的结构化数据。也可以导出ORC和PARQUET格式数据到HDFS或者OBS上。 数据存储在OBS:数据存储和计算分离,集群存储成本低,存储量不受限制,并且集群可以随时删除,但计算性能取决于
不必要的数据shuffle。 选择存储方案 【建议】表的存储类型是表定义设计的第一步,用户业务类型是决定表的存储类型的主要因素,表存储类型的选择依据请参考表1。 表1 表的存储类型及场景 存储模型 优点 缺点 适用场景 行存 数据按照行进行存储,在查询某一行数据时,可以快速定位到目标位置。
仔细设计,能够尽可能的减少不必要的数据shuffle。 选择存储方案 【建议】表的存储类型是表定义设计的第一步,用户业务类型是决定表的存储类型的主要因素,表存储类型的选择依据请参考表1。 表1 表的存储类型及场景 存储类型 适用场景 行存 点查询(返回记录少,基于索引的简单查询)。
generate stream element due to out of memory" SQLSTATE: 53200 错误原因:无法创建分布式内部对象。 解决办法:内存不够用,检查内存使用情况,清理缓存。 GAUSS-02262: "Distribute query fail due
分别进行介绍。 存储层数据倾斜 GaussDB(DWS)数据库中,数据分布存储在各个DN上,通过分布式执行提高查询的效率。但是,如果数据分布存在倾斜,则会导致分布式执行某些DN成为瓶颈,影响查询性能。这种情况通常是由于分布列选择不合理,可以通过调整分布列的方式解决。 例如下例:
分别进行介绍。 存储层数据倾斜 GaussDB(DWS)数据库中,数据分布存储在各个DN上,通过分布式执行提高查询的效率。但是,如果数据分布存在倾斜,则会导致分布式执行某些DN成为瓶颈,影响查询性能。这种情况通常是由于分布列选择不合理,可以通过调整分布列的方式解决。 例如下例:
分别进行介绍。 存储层数据倾斜 GaussDB(DWS)数据库中,数据分布存储在各个DN上,通过分布式执行提高查询的效率。但是,如果数据分布存在倾斜,则会导致分布式执行某些DN成为瓶颈,影响查询性能。这种情况通常是由于分布列选择不合理,可以通过调整分布列的方式解决。 例如下例:
本开发设计建议约定数据库建模和数据库应用程序开发过程中,应当遵守的设计规范。依据这些规范进行建模,能够更好的契合GaussDB(DWS)的分布式处理架构,输出更高效的业务SQL代码。 本开发设计建议中所陈述的“建议”和“关注”含义如下: 建议:用户应当遵守的设计规则。遵守这些规则,
MySQL DDM PostgreSQL(公测) Oracle(公测) GaussDB分布式版(公测) 请参见DRS实时同步章节。 其中PostgreSQL、Oracle、GaussDB分布式版的数据源属于公测阶段,请移步到DRS管理控制台,通过新建工单方式申请公测。 父主题: 实时入库
块。 支持单语句事务,用户不显式启动事务,则单条语句就是一个事务。 分布式事务管理。支持全局事务信息管理,包括gxid、snapshot、timestamp的管理,分布式事务状态管理,gxid溢出的处理。 分布式事务支持ACID特性(Atomicity,Consistency,I
O均充足的情况下,压缩级别对加载效率影响不大。通常,列存表的加载效率比行存要高。 存储占用减少了64.3%。 压缩级别、列存和Hash分布均能够节省存储空间。Replication表会明显加大存储占用,但是可以减小网络开销。通过对小表采用Replication方式,是使用小量空间换取性能的正向做法。
B(DWS)数据仓库,实现Kafka实时入库到GaussDB(DWS)的过程。 了解DLI请参见数据湖产品介绍 。 了解Kafka请参见分布式消息服务Kafka产品介绍。 图1 Kafka实时入库DWS 具体操作请参见通过DLI Flink作业将Kafka数据实时写入DWS。 父主题: