检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hash分布表的分布列选取至关重要,需要满足以下基本原则: 列值应比较离散,以便数据能够均匀分布到各个DN。例如,考虑选择表的主键为分布列,如在人员信息表中选择身份证号码为分布列。 在满足第一条原则的情况下尽量不要选取存在常量filter的列。 在满足前两条原则的情况,考虑选择查询中的连接条件为分布列,以便
Migration,简称CDM),是一种高效、易用的批量数据迁移服务。了解更多请参见云数据迁移CDM。 本实践预计时长90分钟,实践用到的云服务包括虚拟私有云 VPC及子网、弹性公网EIP、云数据迁移 CDM和数据仓库服务 GaussDB(DWS),基本流程如下: 迁移前准备 步骤一:元数据迁移
Migration,简称CDM),是一种高效、易用的批量数据迁移服务。了解更多请参见云数据迁移CDM。 本实践预计时长90分钟,实践用到的云服务包括虚拟私有云 VPC及子网、弹性公网EIP、云数据迁移 CDM和数据仓库服务 GaussDB(DWS),基本流程如下: 迁移前准备 步骤一:元数据迁移
已注册华为账号并开通华为云,具体请参见注册华为账号并开通华为云,且在使用GaussDB(DWS) 前检查账号状态,账号不能处于欠费或冻结状态。 已创建虚拟私有云和子网,参见创建虚拟私有云和子网。 步骤一:创建Kafka实例 登录华为云控制台,服务列表选择“应用中间件 > 分布式消息服务Kafka版”,进入Kafka管理控制台。
后,记录集群的内网IP。 为确保ECS与GaussDB(DWS)网络互通,GaussDB(DWS)数据仓库需要与ECS在同一个区域,同一个虚拟私有云和子网下。 表1 DWS规格 参数项 参数取值 区域 华北-北京4 可用区 可用区1 产品类型 标准数仓 节点规格 8xlarge |
将获取的TPC-H工具上传到ECS的/data1/script/tpch-kit目录执行以下命令解压。 “tpch_3.0.1.zip”替换为实际的软件包名。 cd /data1/script/tpch-kit && unzip tpch_v3.0.1.zip 执行如下命令编译生成数据构建工具dbgen。
pcds-kit目录。 执行如下命令解压tpcds的包并编译生成数据构建工具dsdgen。 “tpcds_3.2.0.zip”替换为实际的软件包名。 “DSGen-software-code-3.2.0rc1”替换为实际解压的文件夹名。 cd /data1/script/tpcds-kit
当单个字段无法满足离散条件时,可以考虑使用多个字段一起作为分布键。一般情况下,可以考虑选择表的主键作为分布键。例如,在人员信息表中选择证件号码作为分布键。 【建议】在满足第一条原则的情况下,尽量不要选取在查询中存在常量过滤条件的字段作为分布键。例如,在表dwcjk相关的查询中,字
已注册华为账号并开通华为云,具体请参见注册华为账号并开通华为云,且在使用GaussDB(DWS) 前检查账号状态,账号不能处于欠费或冻结状态。 已创建虚拟私有云和子网,参见创建虚拟私有云和子网。 已获取华为账号的AK和SK,参见访问密钥。 步骤一:准备DLI源端数据 创建DLI弹性资源池及队列。 登录华为云控制台,服务列表选择“大数据
当单个字段无法满足离散条件时,可以考虑使用多个字段一起作为分布键。一般情况下,可以考虑选择表的主键作为分布键。例如,在人员信息表中选择证件号码作为分布键。 【建议】在满足第一条原则的情况下,尽量不要选取在查询中存在常量过滤条件的字段作为分布键。例如,在表dwcjk相关的查询中,字
pcds-kit目录。 执行如下命令解压tpcds的包并编译生成数据构建工具dsdgen。 “tpcds_3.2.0.zip”替换为实际的软件包名。 “DSGen-software-code-3.2.0rc1”替换为实际解压的文件夹名。 1 2 cd /data1/script/tpcds-kit
已注册华为账号并开通华为云,具体请参见注册华为账号并开通华为云,且在使用GaussDB(DWS) 前检查账号状态,账号不能处于欠费或冻结状态。 已创建虚拟私有云和子网,参见创建虚拟私有云和子网。 步骤一:准备MySQL数据 购买RDS实例,参见表1配置关键参数,其他参数可保持默认,如需了解详情请参见RDS文档。
security_group_id 否 String 指定安全组ID,用于集群网络配置。默认值与原集群相同。 vpc_id 否 String 指定虚拟私有云ID,用于集群网络配置。默认值与原集群相同。 availability_zone 否 String 指定集群可用区。默认值与原集群相同。
否 String 集群安全组ID。 datastore_version 是 String 集群版本。 vpc_id 是 String 集群虚拟私有云ID。 subnet_id 是 String 集群子网ID。 public_ip 否 OpenPublicIp object 弹性IP对象。
JDBC接口参考 JDBC接口是一套提供给用户的API方法,本节将对部分常用接口做具体描述,若涉及其他接口可参考JDK1.6(软件包)/JDBC4.0中相关内容。 java.sql.Connection java.sql.Connection是数据库连接接口。 表1 对java.sql
JDBC包与驱动类 JDBC包 从管理控制台下载包名为dws_8.x.x_jdbc_driver.zip的软件包。 请参见下载JDBC或ODBC驱动。 解压后有两个JDBC的驱动jar包: gsjdbc4.jar:与PostgreSQL保持兼容的驱动包,其中类名、类结构与Post
JDBC接口参考 JDBC接口是一套提供给用户的API方法,本节将对部分常用接口做具体描述,若涉及其他接口可参考JDK1.6(软件包)/JDBC4.0中相关内容。 java.sql.Connection java.sql.Connection是数据库连接接口。 表1 对java.sql
下载DataCheck工具 下载DataCheck客户端软件,请联系技术支持工程师。 安装DataCheck工具 DataCheck是一款运行在Linux或Windows操作系统上的命令行工具,可免安装使用,下载软件包后,用户解压软件包即可使用。 Windows: 解压DataCheck-*
(rel),BufferGetBlockNumber(buf), please reindex it. 原因分析 在实际操作中,索引会由于软件问题或者硬件问题引起崩溃。例如,当索引分裂完而磁盘空间不足、出现页面损坏等问题时,会导致索引损坏。 解决办法 若此表是以pg_cudesc
弹性伸缩是云服务一个非常重要的特性,可以使云服务根据算力需求和资源负荷情况调整计算和存储资源配置,以达到性能最优和降低成本的目的。 一般分布式架构软件弹性伸缩都涉及如下几个维度: Scale Out(即横向扩展,向外扩展) Scale out代表分布式计算的能力,通过在原有系统上增加节点