检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
支持的数据类型 目前大数据领域,主流文件格式为ORC。GaussDB(DWS)主要支持ORC文件格式。用户利用HIVE将数据导出存储为ORC文件格式,使用GaussDB(DWS)通过只读外表对ORC文件内的数据进行查询分析,因此,需要在ORC文件格式支持的数据类型与GaussDB
所以是否要为表增加索引,索引建立在哪些字段上,是创建索引前必须要考虑的问题。需要分析应用程序的业务处理、数据使用、经常被用作查询的条件或者被要求排序的字段来确定是否建立索引。 索引类型 btree:B-tree索引使用一种类似于B+树的结构来存储数据的键值,通过这种结构能够快速
所以是否要为表增加索引,索引建立在哪些字段上,是创建索引前必须要考虑的问题。需要分析应用程序的业务处理、数据使用、经常被用作查询的条件或者被要求排序的字段来确定是否建立索引。 索引类型 btree:B-tree索引使用一种类似于B+树的结构来存储数据的键值,通过这种结构能够快速
objects 专属分布式存储池列表对象。 count Integer 专属分布式存储池数量。 表3 DssPool 参数 参数类型 描述 id String 专属分布式存储池ID。 name String 专属分布式存储池名称。 type String 专属分布式存储池的存储类型。 SSD:超高IO专属分布式存储池。
oid “归并多个索引对象”函数。 ambuild regproc PG_PROC.oid “建立新索引”函数。 ambuildempty regproc PG_PROC.oid “建立空索引”函数。 ambulkdelete regproc PG_PROC.oid 批量删除函数。
调整的规格。调整后的集群与原集群的虚拟私有云、子网和安全组相同。 在“调整到”中可以设置新集群的节点数量。 如果集群规格磁盘大小可选择,还可以选择磁盘存储类型,以及每节点可用磁盘存储容量。 其中“极速型SSD”、“极速型SSD V2”存储类型仅ECS+EVS形态支持。 用户阅读完
数据库的系统资源(CPU资源、内存资源、IO资源和存储资源)是有限的,GaussDB(DWS)在同时运行多种类型的业务(如数据加载、批量分析、实时查询等)时,各类型业务之间可能会竞争资源,从而出现资源性能瓶颈,导致吞吐量下降,造成整体的查询性能低下。那么对系统的资源进行合理的分配,能避免产生资源不合理利用而导致的系统运行效率下降等问题。
如何查看GaussDB(DWS)外部表信息? 如果需要查询OBS、GDS等外表信息(如OBS路径),可以执行以下语句查询。 1 SELECT * FROM pg_get_tabledef('外表名称') 例如,表名为traffic_data.GCJL_OBS,查询如下: 1 SELECT
节点管理看到的磁盘空间是DWS集群内所有的磁盘即系统盘、数据盘加到一起的容量,而在存算一体集群概览里看到的磁盘空间只是集群内能做表数据存储的可用空间,另外DWS集群中表是有备份的副本数的,表的备份数据也是需要占用磁盘存储的。存算分离集群概览中的磁盘空间,为缓存大小,是实际申请的磁盘空间。 如果已确定由于磁盘空间不足导
据文件,利用多DN并行的方式,将数据从GaussDB(DWS)数据库导出到外部,存放在HDFS文件系统上,从而提高整体导出性能。 准备环境 已创建DWS集群,需确保MRS和DWS集群在同一个区域、可用区、同一VPC子网内,确保集群网络互通。 创建MRS分析集群 登录华为云控制台,选择“大数据
SELECT * FROM [源表名]; 编写批处理任务脚本,实现并发批量导出数据。并发量视机器资源使用情况而定。可通过几个表测试,监控资源利用率,根据结果提高或减少并发量。常用资源监控命令有:内存和CPU监控top命令,I/O监控命令iostat,网络监控命令sar等。相关案例请参见多线程导出。
导入性能。 OBS的数据导入性能,多数场景受限于网络的并发访问速率,因此在OBS服务器上最好部署多个桶,使用多桶并发导入,提高DN数据传输利用率。 并发导入场景,与单表导入相似,至少应保证I/O性能大于网络最大速率。 配置GUC参数“raise_errors_if_no_file
为增强可靠性,每个节点都有一个副本,副本会占用一半的存储空间,选择容量时副本容量会自动翻倍存储。 数据仓库系统会备份数据,生成索引、临时缓存文件、运行日志等内容,并占用存储容量。每个节点实际存储的数据,大致为总存储容量的一半。 父主题: 数据迁移
Income_Band - - 总存储空间 - - 查询执行时间 查询1 - - 查询2 - - 查询3 - - 总执行时间 - - 执行以下步骤测试优化前的系统性能,以建立基准。 将上一节记下的所有11张表的累计加载时间填入基准表的“优化前”一列。 记录各表的存储使用情况。 使用pg_s
业务项目来划分。在购买云资源时选择指定企业项目,新购云资源将按此企业项目进行成本分配。详细介绍请参见通过企业项目维度查看成本分配。 图2 为云服务器选择企业项目 通过成本标签进行成本分配 标签是华为云为了标识云资源,按各种维度(例如用途、所有者或环境)对云资源进行分类的标记。推荐
间以及容灾状态。 生产集群信息:用户可查看生产集群ID、集群名称、可用分区、已用存储容量、集群容灾状态、最近容灾成功时间等相关信息。 灾备集群信息:用户可查看灾备集群ID、集群名称、可用分区、已用存储容量、集群容灾状态、最近容灾成功时间等相关信息。 容灾配置:用户可查看并修改容灾同步周期。
参数解释 样例值 虚拟私有云 指定集群节点使用的虚拟专用网络,实现不同业务的网络隔离。 首次创建数据仓库集群时,如果未配置过虚拟私有云,可以单击“查看虚拟私有云”进入虚拟私有云管理控制台,新创建一个满足需求的虚拟私有云。 如何创建虚拟私有云,具体请参见《虚拟私有云用户指南》中的创建虚拟私有云和子网章节。
GaussDB(DWS)数据库支持通过HDFS外表导出ORC格式数据至MRS,通过外表设置的导出模式、导出数据格式等信息来指定导出的数据文件,利用多DN并行的方式,将数据从GaussDB(DWS)数据库导出到外部,存放在HDFS文件系统上,从而提高整体导出性能。 CN只负责任务的规划
见表约束的定义。 表分布的定义,即表的分布策略,它决定GaussDB(DWS)数据库如何在片(Segment)之间划分数据。 参见表分布的定义。 表存储格式。参见选择GaussDB(DWS)表存储模型。 分区表定义。参见创建和管理GaussDB(DWS)分区表。 示例:CREATE
匿名块:动态构造,只能执行一次。语法请参考匿名块。 子程序:存储在数据库中的存储过程、函数和操作符及高级包等。当在数据库上建立好后,可以在其他程序中调用它们。 匿名块 匿名块(Anonymous Block)一般用于不频繁执行的脚本或不重复进行的活动。它们在一个会话中执行,并不被存储。 语法 匿名块的语法参见图1。