检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
DWS权限管理 使用Java进行二次开发 DWS性能调优 11 数据集成 数据集成围绕GaussDB(DWS),提供了简单易用的迁移能力及多种数据源到DWS的集成能力,降低用户数据源迁移和集成的复杂性,是一种高效易用的数据集成服务。目前数据源支持从Kafka、MRS源端迁移至GaussDB(DWS)目的端。
本实践将演示从OBS加载样例数据集到GaussDB(DWS) 集群中并查询数据的流程,从而向您展示GaussDB(DWS) 在数据分析场景中的多表分析与主题分析。 GaussDB(DWS) 已经预先生成了1GB的TPC-H-1x的标准数据集,已将数据集上传到了OBS桶的tpch文
3集群版本开始,支持RoaringBitmap数据类型,用于存储位图数据集。 roaringbitmap数据类型支持行存,列存表。 表1 RoaringBitmap类型 名字 存储容量 描述 范围 RoaringBitmap 32 字节 存储位图数据集 -2,147,483,648~2,147,483
3集群版本开始,支持RoaringBitmap数据类型,用于存储位图数据集。 roaringbitmap数据类型支持行存,列存表。 表1 RoaringBitmap类型 名字 存储容量 描述 范围 RoaringBitmap 32 字节 存储位图数据集 -2,147,483,648~2,147,483
3集群版本开始,支持RoaringBitmap数据类型,用于存储位图数据集。 roaringbitmap数据类型支持行存,列存表。 表1 RoaringBitmap类型 名字 存储容量 描述 范围 RoaringBitmap 32 字节 存储位图数据集 -2,147,483,648~2,147,483
Hudi(发音Hoodie)表示Hadoop Upserts Deletes and Incrementals。用来管理Hadoop大数据体系下存储在DFS上大型分析数据集。 Hudi不是单纯的数据格式,而是一套数据访问方法(类似GaussDB(DWS)存储的access层),在Apache Hudi 0.9
概述 数据集成围绕GaussDB(DWS),提供了简单易用的迁移能力及多种数据源到DWS的集成能力,降低用户数据源迁移和集成的复杂性,是一种高效易用的数据集成服务。目前数据源支持从Kafka、MySQL、Oracle和IoT源端迁移至GaussDB(DWS)目的端。 该特性仅8.2
TPC-H测试结果 DWS测试了使用存算一体和存算分离两种部署架构下,TPC-H 1T规模数据集的开箱查询性能,共22个查询。存算一体查询总耗时为234.23s,存算分离查询总耗时为261.19s。 详细性能数据见下表。 表1 TPC-H测试结果 版本 8.3.0 9.1.0 -
TPC-DS测试结果 本测试主要包括使用存算一体和存算分离两种部署架构下,TPC-H 1T规模数据集的开箱查询性能,共99个查询。存算一体查询总耗时为971.45s,存算分离查询总耗时为1035.80s。详细结果见下表。 表1 TPC-DS测试结果 TPC-DS查询 8.3.0 9
IMMEDIATE、OPEN FOR实现动态查询。前者通过动态执行SELECT语句,后者结合了游标的使用。当需要将查询的结果保存在一个数据集用于提取时,可使用OPEN FOR实现动态查询。 EXECUTE IMMEDIATE 语法图请参见图1。 图1 EXECUTE IMMEDIATE
IMMEDIATE、OPEN FOR实现动态查询。前者通过动态执行SELECT语句,后者结合了游标的使用。当需要将查询的结果保存在一个数据集用于提取时,可使用OPEN FOR实现动态查询。 EXECUTE IMMEDIATE 语法图请参见图1。 图1 EXECUTE IMMEDIATE
IMMEDIATE、OPEN FOR实现动态查询。前者通过动态执行SELECT语句,后者结合了游标的使用。当需要将查询的结果保存在一个数据集用于提取时,可使用OPEN FOR实现动态查询。 EXECUTE IMMEDIATE 语法图请参见图1。 图1 EXECUTE IMMEDIATE
Processing)进行数据分析,探究一些深层次的关系和信息。但是不同的数据库之间很难做到数据共享,数据之间的集成与分析也存在非常大的挑战。 为解决企业的数据集成与分析问题,数据仓库之父比尔·恩门于1990年提出数据仓库(Data Warehouse)。数据仓库主要功能是将OLTP经年累月所累积的
查看GaussDB(DWS)数据库审计日志 数据库审计日志在集群的“安全设置”页面中进行设置,仅“可用”和“非均衡”状态的集群支持修改安全配置,同时集群的任务信息不能处于“节点扩容”、“配置中”、“升级中”、“重分布中”和“重启中”等状态。 前提条件 审计功能总开关audit_e
MRS数据源使用概述 MRS集群简介 MapReduce服务(MapReduce Service,简称MRS)是一个基于开源Hadoop生态环境而运行的大数据集群,对外提供大容量数据的存储和分析能力,可解决用户的数据存储和处理需求。有关MRS服务的详细信息,请参考《MapReduce服务用户指南》。
创建弹性云服务器ECS 参考《弹性云服务器用户指南》创建弹性云服务器,创建的规格可参见下表。 由于TPC-DS、TPC-H数据集占用空间较大,以TPC-DS 1000X和TPC-H 1000X为例,分别占用930GB和1100GB。请创建弹性云服务器时,根据需求添加数据盘,举例如下:
创建GDS外表并导入TPC-DS数据 本文介绍如何通过GDS外表导入TPC-DS 1000x数据,表1列出了TPC-DS测试数据集中的表数据行数。 TPC-H请跳过本章节。 表数据行数 表1 TPC-DS 序号 表名 行数 1 customer_address 6,000,000
从MRS导入数据概述 MapReduce服务(MapReduce Service,简称MRS)是一个基于开源Hadoop生态环境而运行的大数据集群,对外提供大容量数据的存储和分析能力,可解决用户的数据存储和处理需求。具体信息可参考《MapReduce服务用户指南》。 用户可以将海量
创建GDS外表并导入TPC-H数据 本文介绍如何通过GDS外表导入TPC-H 1000x数据,表1列出了TPC-H测试数据集中的表数据行数。 TPC-DS请跳过本章节。 表数据行数 表1 TPC-H 序号 表名 行数 1 region 5 2 nation 25 3 supplier
步骤5:测试新的表结构下的系统性能 重新创建了具有存储方式、压缩级别、分布方式和分布列的测试数据集后,重新测试系统性能。 记录各表的存储使用情况。 使用pg_size_pretty函数查询每张表使用的磁盘空间,并将结果记录到基准表中。 1 SELECT T_NAME, PG_SI