检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建数据仓库GaussDB(DWS) 参见“创建集群”章节创建GaussDB(DWS)数据仓库。创建成功后,记录集群的内网IP。 为确保ECS与GaussDB(DWS)网络互通,GaussDB(DWS)数据仓库需要与ECS在同一个区域,同一个虚拟私有云和子网下。 表1 DWS规格
query存放的绝对路径。 参数3:如果参数1选择batch,此参数忽略;如果参数1选择single,此参数为具体执行的query名称,例如Q1。 gsql客户端的使用需要每次连接后,都要执行source gsql_env导入变量命令,执行查询脚本前请确认gsql可执行。 query1000x文件夹中必须包含tpch
regdictionary[], OUT dictionary regdictionary, OUT lexemes text[]) 描述:测试一个配置。 返回类型:setof record 示例: 1 2 3 4 5 6 7 8 9 SELECT ts_debug('english'
regdictionary[], OUT dictionary regdictionary, OUT lexemes text[]) 描述:测试一个配置。 返回类型:setof record 示例: 1 2 3 4 5 6 7 8 9 SELECT ts_debug('english'
创建弹性云服务器ECS 参考《弹性云服务器用户指南》创建弹性云服务器,创建的规格可参见下表。 由于TPC-DS、TPC-H数据集占用空间较大,以TPC-DS 1000X和TPC-H 1000X为例,分别占用930GB和1100GB。请创建弹性云服务器时,根据需求添加数据盘,举例如下:
先不指定存储方式,分布键、分布方式和压缩方式创建表,然后为这些表加载测试数据并测试系统性能。接下来,您将应用调优表实践以使用新的存储方式、分布键、分布方式和压缩方式重新创建这些表,并再次为这些表加载测试数据和测试系统性能,以便比较不同的设计对表的加载性能、存储空间和查询性能的影响。
时检测到错误。根据""%s""给出的主备连接返回的错误信息进行处理。" 解决办法:"1. 网络连接超时异常/当前主机业务压力大,调整当前网络环境/调整业务压力。2. 主机异常关闭,检查主机异常关闭原因。" GAUSS-02062: "sockaddr is NULL, because
案例:使排序下推 在做场景性能测试时,发现某场景大部分时间是CN端在做window agg,占到总执行时间95%以上,系统资源不能充分利用。研究发现该场景的特点是:将两列分别求sum作为一个子查询,外层对两列的和再求和后做trunc,然后排序。可以尝试将语句改写为子查询,使排序下推。
案例:使排序下推 在做场景性能测试时,发现某场景大部分时间是CN端在做window agg,占到总执行时间95%以上,系统资源不能充分利用。研究发现该场景的特点是:将两列分别求sum作为一个子查询,外层对两列的和再求和后做trunc,然后排序。可以尝试将语句改写为子查询,使排序下推。
集群有效容量下降。通过选择合适的分布列,可以避免数据倾斜。 【关注】将表的扫描压力均匀分散在各个DN上。避免扫描压力集中在部分DN上,而导致性能瓶颈。例如,在事实表上使用等值过滤条件时,将会导致扫描压力不均匀。 【关注】减少需要扫描的数据量。通过分区表的剪枝机制可以大幅减少数据的扫描量。
集群有效容量下降。通过选择合适的分布列,可以避免数据倾斜。 【关注】将表的扫描压力均匀分散在各个DN上。避免扫描压力集中在部分DN上,而导致性能瓶颈。例如,在事实表上使用等值过滤条件时,将会导致扫描压力不均匀。 【关注】减少需要扫描的数据量。通过分区表的剪枝机制可以大幅减少数据的扫描量。
使用Windows gsql客户端连接集群 用户在创建好数据仓库集群,开始使用集群数据库之前,需要使用数据库SQL客户端连接到数据库。GaussDB(DWS)提供了与集群版本配套的Windows gsql命令行客户端工具,您可以使用Windows gsql客户端通过集群的公网地址或者内网地址访问集群。
表数据均匀分布在各个DN上,以防止单个DN对应的存储设备空间不足造成集群有效容量下降。选择合适分布列,避免数据分布倾斜可以实现该点。 表Scan压力均匀分散在各个DN上,以避免单DN的Scan压力过大,形成Scan的单节点瓶颈。分布列不选择基表上等值filter中的列可以实现该点。 减少扫描数据量。通过分区的剪枝机制可以实现该点。
表数据均匀分布在各个DN上,以防止单个DN对应的存储设备空间不足造成集群有效容量下降。选择合适分布列,避免数据分布倾斜可以实现该点。 表Scan压力均匀分散在各个DN上,以避免单DN的Scan压力过大,形成Scan的单节点瓶颈。分布列不选择基表上等值filter中的列可以实现该点。 减少扫描数据量。通过分区的剪枝机制可以实现该点。
优化前 t_ddw_f10_op_cust_asset_mon为分区表,分区键为year_mth,此字段是由年月两个值拼接而成的整数。 测试SQL如下: 1 2 3 4 5 SELECT count(1) FROM t_ddw_f10_op_cust_asset_mon
服务端工具 gs_dump gs_dumpall gs_restore gds_check gds_install gds_uninstall gds_ctl ESLDoTrust.py DisasterFineGrained.py
优化前 t_ddw_f10_op_cust_asset_mon为分区表,分区键为year_mth,此字段是由年月两个值拼接而成的整数。 测试SQL如下: 1 2 3 4 5 SELECT count(1) FROM t_ddw_f10_op_cust_asset_mon
SSL连接方式的安全性高于非SSL方式,建议在客户端使用SSL连接方式。 执行以下命令解压客户端工具。 cd <客户端存放路径> unzip dws_client_8.1.x_redhat_x64.zip 其中: <客户端存放路径>:请替换为实际的客户端存放路径。 dws_client_8.1.x_redhat_x64
SSL连接方式的安全性高于非SSL方式,建议在客户端使用SSL连接方式。 执行以下命令解压客户端工具。 cd <客户端存放路径> unzip dws_client_8.1.x_redhat_x64.zip 其中: <客户端存放路径>:请替换为实际的客户端存放路径。 dws_client_8.1.x_redhat_x64
附录:表创建语法 本节所附为调优表实践中使用到的SQL测试语句,推荐您将每节的SQL语句拷贝并另存为.sql文件。例如,创建一个包含“创建初始表”SQL语句的create_table_fir.sql文件。创建后使用SQL客户端工具执行.sql文件效率更高,且利于统计用例的总耗费时间。使用gsql运行