检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建GDS外表并导入TPC-H数据 本文介绍如何通过GDS外表导入TPC-H 1000x数据,表1列出了TPC-H测试数据集中的表数据行数。 TPC-DS请跳过本章节。 表数据行数 表1 TPC-H 序号 表名 行数 1 region 5 2 nation 25 3 supplier
DB(DWS)利用多节点的规模和资源并使用各种优化法(列存,向量引擎,分布式框架等),专注于联机分析处理(OLAP),为传统数据库对大型数据集的分析及报告工作负荷提供了数量级改善。 当您的数据及查询的复杂性增加时,或者在您要防止报告和分析处理对OLTP工作负荷造成干扰时,GaussDB(DWS)可提供横向扩展能力。
HLL数据类型 HLL(HyperLoglog)是统计数据集中唯一值个数的高效近似算法。它有着计算速度快,节省空间的特点,不需要直接存储集合本身,而是存储一种名为HLL的数据结构。每当有新数据加入进行统计时,只需要把数据经过哈希计算并插入到HLL中,最后根据HLL就可以得到结果。
HLL数据类型 HLL(HyperLoglog)是统计数据集中唯一值个数的高效近似算法。它有着计算速度快,节省空间的特点,不需要直接存储集合本身,而是存储一种名为HLL的数据结构。每当有新数据加入进行统计时,只需要把数据经过哈希计算并插入到HLL中,最后根据HLL就可以得到结果。
HLL数据类型 HLL(HyperLoglog)是统计数据集中唯一值个数的高效近似算法。它有着计算速度快,节省空间的特点,不需要直接存储集合本身,而是存储一种名为HLL的数据结构。每当有新数据加入进行统计时,只需要把数据经过哈希计算并插入到HLL中,最后根据HLL就可以得到结果。
库表结构,帮助用户更容易针对不同数据库进行数据迁移。 创建表结构映射 登录GaussDB(DWS)控制台。 在左侧导航栏选择“数据 > 数据集成 > 映射管理”,进入映射管理页面。 单击“创建表映射配置”,进入创建表映射配置页面。 填写参数,进行配置。 单击左侧,填写“表映射名称”、“源表名”和“目标表名”。
returning set of rows cannot return null value" SQLSTATE: 22004 错误原因:表函数返回的数据集中包含空值。 解决办法:在表达式处理阶段应存在对于空值的过滤操作,需要检查是否正确过滤。 GAUSS-02330: "rows returned
自动建表:把源数据库中的表与字段,同步到GaussDB(DWS)中,但不迁移数据。 创建作业 登录GaussDB(DWS)控制台。 在左侧导航栏选择“数据 > 数据集成 > 实例管理”,进入实例管理页面。 在实例列表中单击指定实例名称,进入详情页面。 在左侧导航栏单击“作业管理”,进入该实例的作业管理页面。
该变量的类型。 【建议】表对象的命名应该可以表征该表的重要特征。例如,在表对象命名时区分该表是普通表、临时表还是非日志表: 普通表名按照数据集的业务含义命名。 临时表以“tmp_+后缀”命名。 非日志表以“ul_+后缀”命名。 外表以“f_+后缀”命名。 父主题: GaussDB(DWS)开发设计规范
该变量的类型。 【建议】表对象的命名应该可以表征该表的重要特征。例如,在表对象命名时区分该表是普通表、临时表还是非日志表: 普通表名按照数据集的业务含义命名。 临时表以“tmp_+后缀”命名。 非日志表以“ul_+后缀”命名。 外表以“f_+后缀”命名。 父主题: 开发设计建议
该变量的类型。 【建议】表对象的命名应该可以表征该表的重要特征。例如,在表对象命名时区分该表是普通表、临时表还是非日志表: 普通表名按照数据集的业务含义命名。 临时表以“tmp_+后缀”命名。 非日志表以“ul_+后缀”命名。 外表以“f_+后缀”命名。 父主题: GaussDB(DWS)开发设计建议
辆精确查询和车辆模糊查询,展示GaussDB(DWS) 对于历史详单数据的高性能查询能力。 供应链需求分析(TPC-H数据集) 本实践将演示从OBS加载样例数据集到GaussDB(DWS) 集群中并查询数据的流程,从而向您展示GaussDB(DWS) 在数据分析场景中的多表分析与主题分析。
rows) NTILE(num_buckets integer) 描述:NTILE函数根据num_buckets integer将有序的数据集合平均分配到num_buckets所指定数量的桶中,并将桶号分配给每一行。分配时应尽量做到平均分配。 返回值类型:INTEGER 示例:
已获取待连接数据源的地址、用户名和密码,且该用户拥有数据导入、导出的操作权限。 创建连接配置 登录GaussDB(DWS)控制台。 在左侧导航栏选择“数据 > 数据集成 > 连接管理”,进入连接管理页面。 单击“创建连接配置”,打开创建连接配置弹窗。 配置连接参数,各个参数具体配置请参见连接参数说明。 表1
基准生成的标准性能测试数据。 TPC-DS是数据库决策支持测试基准。通过使用TPC-DS的测试数据以及测试案例,用户可以模拟真实场景下大数据集的统计、报表生成、联机查询、数据挖掘等复杂场景,从而了解数据库应用的功能和性能。 当前TPC-DS样例数据仅支持在“北京一”区域导入,其他区域暂不支持。
基准生成的标准性能测试数据。 TPC-DS是数据库决策支持测试基准。通过使用TPC-DS的测试数据以及测试案例,用户可以模拟真实场景下大数据集的统计、报表生成、联机查询、数据挖掘等复杂场景,从而了解数据库应用的功能和性能。 当前TPC-DS样例数据仅支持在“北京一”区域导入,其他区域暂不支持。
gs_table_distribution('public','dbgen_version'); 查询结果如下: 显示该表在DN上所占磁盘空间确实存在数据倾斜现象,数据集中在dn_6005_6006上。 父主题: 系统视图
gs_table_distribution('public','dbgen_version'); 查询结果如下: 显示该表在DN上所占磁盘空间确实存在数据倾斜现象,数据集中在dn_6005_6006上。 父主题: 系统视图
使用了非法的表空间名称。 解决办法:使用CREATE TABLESPACE tablespace_name创建表空间时,表空间名字不能和数据集群中的其他表空间重名,且名字不能以"pg"开头,这样的名字留给系统表空间使用。 GAUSS-00534: "tablespace '%s'
约束与限制 目前仅支持单机集群。 目前仅支持按需计费模式。 操作步骤 登录GaussDB(DWS)控制台。 在左侧导航栏选择“数据 > 数据集成 > 实例管理”,进入实例管理页面。 单击页面右上角“购买GDS-Kafka实例”,进入购买页面配置集群参数。 表1 参数说明 参数名 参数解释