检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
确保CDM集群与DWS集群在同一个区域、虚拟私有云下,以保证网络互通。 在CDM管理控制台的“集群管理”页面,单击集群操作列的“作业管理”,选择“连接管理 > 新建连接”。 连接器类型选择“数据仓库服务(DWS)”,单击“下一步”。
本实践预计时长60分钟,实践用到的云服务包括虚拟私有云 VPC及子网、数据湖探索 DLI、对象存储服务 OBS和数据仓库服务 GaussDB(DWS),基本流程如下: 准备工作 步骤一:准备DLI源端数据 步骤二:创建GaussDB(DWS)集群 步骤三:获取GaussDB(DWS
表2 硬件配置 参数项 取值 计费模式 按需计费 可用区 可用区2 虚拟私有云 vpc-01 子网 subnet-01 安全组 自动创建 弹性公网IP 10.x.x.x 企业项目 default Master节点 2 分析Core节点 3 分析Task节点 0 填写高级配置参数,单击
这种保存着待入库数据的服务器为数据服务器。此时,只需检测以确认数据服务器和GaussDB(DWS)集群能够正常通信,并查看和记录数据在数据服务器上的存放目录备用。 如果待入库数据还没有就绪,则请先参考如下步骤,将数据上传到数据服务器上。 操作步骤 以root用户登录数据服务器。
GDS导入示例 多数据服务器并行导入 规划数据服务器与集群处于同一内网,数据服务器IP为192.168.0.90和192.168.0.91。数据源文件格式为CSV。 以root用户登录每台GDS数据服务器,在两台数据服务器上,分别创建数据文件存放目录“/input_data”。
cd /opt/bin/dws/gds/bin python3 gds_ctl.py stop 父主题: 使用GDS导出数据到远端服务器
父主题: 使用GDS从远端服务器导入数据
"ecs:*:delete*", "vpc:*:get*", "vpc:*:list*", "vpc:*:create*",
cd /opt/bin/dws/gds/bin python3 gds_ctl.py stop 父主题: 使用GDS从远端服务器导入数据
1 chown -R gdsuser:gdsgrp /output_data 父主题: 使用GDS导出数据到远端服务器
执行导出数据 前提条件 需要确保每一个CN和DN所在服务器到GDS服务器的IP和端口是互通的。
创建GDS外表 外表中配置了数据源格式信息、GDS服务的访问信息,从而GaussDB(DWS)最终可以通过外表将数据服务器上的数据引流进数据库实表中。 操作步骤 收集数据源格式信息、GDS服务的访问信息。
GDS导出示例 Remote模式导出 规划数据服务器与集群处于同一内网,数据服务器IP为192.168.0.90,导出数据文件格式为CSV,所以规划的并行导出模式为Remote模式。
其中设置的导出模式信息如下所示: 规划数据服务器与集群处于同一内网,数据服务器IP为192.168.0.90,待导出的数据文件格式为CSV,选择并行导出模式为Remote模式。
测试方法 总体流程 创建弹性云服务器ECS和数据仓库GaussDB(DWS) 构建TPC-H&TPC-DS使用数据 建表与数据导入 执行查询与结果收集
准备数据构建工具编译环境 远程连接ECS弹性云服务器。 执行以下命令, 安装git。 yum install git 执行以下命令,安装gcc。 yum install gcc 父主题: 构建TPC-H&TPC-DS使用数据
方式二:创建数据源时如果获取不到方式一创建的接入客户端,将会直接在VPCEP端创建Lakeformation实例在DWS集群所在VPC下的客户端,此时需要IAM用户具有VPCEP的查询及创建权限,使用此方式创建的VPCEP客户端未和LakeFormation绑定,如果LakeFromation
1 SELECT * FROM mys_data.mys_order; 步骤二:创建GaussDB(DWS)集群 创建集群,同时为确保网络连通,GaussDB(DWS)集群的区域、VPC选择与RDS实例保持一致,本实践为“华北-北京四”,虚拟私有云与上面创建RDS的虚拟私有云保持一致
数据服务器:数据源文件所在的服务器称为数据服务器。基于安全考虑,建议数据服务器和GaussDB(DWS)集群处于同一内网。 外表Foreign Table:用于识别数据源文件的位置、文件格式、存放位置、编码格式、数据间的分隔符等信息。是关联数据文件与数据库实表(目标表)的对象。
- 父主题: 使用GDS导出数据到远端服务器