检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
调优前:学习表结构设计 在本实践中,您将学习如何优化表的设计。您首先不指定存储方式,分布键、分布方式和压缩方式创建表,然后为这些表加载测试数据并测试系统性能。接下来,您将应用调优表实践以使用新的存储方式、分布键、分布方式和压缩方式重新创建这些表,并再次为这些表加载测试数据和测试系
本实践将演示从OBS加载样例数据集到GaussDB(DWS) 集群中并查询数据的流程,从而向您展示GaussDB(DWS) 在数据分析场景中的多表分析与主题分析。 GaussDB(DWS) 已经预先生成了1GB的TPC-H-1x的标准数据集,已将数据集上传到了OBS桶的tpch文
3集群版本开始,支持RoaringBitmap数据类型,用于存储位图数据集。 roaringbitmap数据类型支持行存,列存表。 表1 RoaringBitmap类型 名字 存储容量 描述 范围 RoaringBitmap 32 字节 存储位图数据集 -2,147,483,648~2,147,483
3集群版本开始,支持RoaringBitmap数据类型,用于存储位图数据集。 roaringbitmap数据类型支持行存,列存表。 表1 RoaringBitmap类型 名字 存储容量 描述 范围 RoaringBitmap 32 字节 存储位图数据集 -2,147,483,648~2,147,483
3集群版本开始,支持RoaringBitmap数据类型,用于存储位图数据集。 roaringbitmap数据类型支持行存,列存表。 表1 RoaringBitmap类型 名字 存储容量 描述 范围 RoaringBitmap 32 字节 存储位图数据集 -2,147,483,648~2,147,483
概述 数据集成围绕GaussDB(DWS),提供了简单易用的迁移能力及多种数据源到DWS的集成能力,降低用户数据源迁移和集成的复杂性,是一种高效易用的数据集成服务。目前数据源支持从Kafka、MySQL、Oracle和IoT源端迁移至GaussDB(DWS)目的端。 该特性仅8.2
DWS权限管理 使用Java进行二次开发 DWS性能调优 11 数据集成 数据集成围绕GaussDB(DWS),提供了简单易用的迁移能力及多种数据源到DWS的集成能力,降低用户数据源迁移和集成的复杂性,是一种高效易用的数据集成服务。目前数据源支持从Kafka、MRS源端迁移至GaussDB(DWS)目的端。
Hudi(发音Hoodie)表示Hadoop Upserts Deletes and Incrementals。用来管理Hadoop大数据体系下存储在DFS上大型分析数据集。 Hudi不是单纯的数据格式,而是一套数据访问方法(类似GaussDB(DWS)存储的access层),在Apache Hudi 0.9
TPC-DS测试结果 本测试主要包括使用存算一体和存算分离两种部署架构下,TPC-H 1T规模数据集的开箱查询性能,共99个查询。存算一体查询总耗时为971.45s,存算分离查询总耗时为1035.80s。详细结果见下表。 表1 TPC-DS测试结果 TPC-DS查询 8.3.0 9
TPC-H测试结果 DWS测试了使用存算一体和存算分离两种部署架构下,TPC-H 1T规模数据集的开箱查询性能,共22个查询。存算一体查询总耗时为234.23s,存算分离查询总耗时为261.19s。 详细性能数据见下表。 表1 TPC-H测试结果 版本 8.3.0 9.1.0 -
IMMEDIATE、OPEN FOR实现动态查询。前者通过动态执行SELECT语句,后者结合了游标的使用。当需要将查询的结果保存在一个数据集用于提取时,可使用OPEN FOR实现动态查询。 EXECUTE IMMEDIATE 语法图请参见图1。 图1 EXECUTE IMMEDIATE
IMMEDIATE、OPEN FOR实现动态查询。前者通过动态执行SELECT语句,后者结合了游标的使用。当需要将查询的结果保存在一个数据集用于提取时,可使用OPEN FOR实现动态查询。 EXECUTE IMMEDIATE 语法图请参见图1。 图1 EXECUTE IMMEDIATE
IMMEDIATE、OPEN FOR实现动态查询。前者通过动态执行SELECT语句,后者结合了游标的使用。当需要将查询的结果保存在一个数据集用于提取时,可使用OPEN FOR实现动态查询。 EXECUTE IMMEDIATE 语法图请参见图1。 图1 EXECUTE IMMEDIATE
MRS数据源使用概述 MRS集群简介 MapReduce服务(MapReduce Service,简称MRS)是一个基于开源Hadoop生态环境而运行的大数据集群,对外提供大容量数据的存储和分析能力,可解决用户的数据存储和处理需求。有关MRS服务的详细信息,请参考《MapReduce服务用户指南》。
教程指引 本教程旨在演示使用GDS(General Data Service)工具将远端服务器上的数据导入GaussDB(DWS)中的过程,帮助您学习如何通过GDS进行数据导入的方法。 GaussDB(DWS)支持通过GDS外表将TXT、CSV和FIXED格式的数据导入到集群进行查询。 在本教程中,您将:
从MRS导入数据概述 MapReduce服务(MapReduce Service,简称MRS)是一个基于开源Hadoop生态环境而运行的大数据集群,对外提供大容量数据的存储和分析能力,可解决用户的数据存储和处理需求。具体信息可参考《MapReduce服务用户指南》。 用户可以将海量
创建GDS外表并导入TPC-DS数据 本文介绍如何通过GDS外表导入TPC-DS 1000x数据,表1列出了TPC-DS测试数据集中的表数据行数。 TPC-H请跳过本章节。 表数据行数 表1 TPC-DS 序号 表名 行数 1 customer_address 6,000,000
创建GDS外表并导入TPC-H数据 本文介绍如何通过GDS外表导入TPC-H 1000x数据,表1列出了TPC-H测试数据集中的表数据行数。 TPC-DS请跳过本章节。 表数据行数 表1 TPC-H 序号 表名 行数 1 region 5 2 nation 25 3 supplier
创建弹性云服务器ECS 参考《弹性云服务器用户指南》创建弹性云服务器,创建的规格可参见下表。 由于TPC-DS、TPC-H数据集占用空间较大,以TPC-DS 1000X和TPC-H 1000X为例,分别占用930GB和1100GB。请创建弹性云服务器时,根据需求添加数据盘,举例如下:
Processing)进行数据分析,探究一些深层次的关系和信息。但是不同的数据库之间很难做到数据共享,数据之间的集成与分析也存在非常大的挑战。 为解决企业的数据集成与分析问题,数据仓库之父比尔·恩门于1990年提出数据仓库(Data Warehouse)。数据仓库主要功能是将OLTP经年累月所累积的