检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
- 父主题: 使用GDS导出数据到远端服务器
执行导出数据 前提条件 需要确保每一个CN和DN所在服务器到GDS服务器的IP和端口是互通的。
已创建虚拟私有云和子网,参见创建虚拟私有云和子网。 已获取华为账号的AK和SK,参见访问密钥。 步骤一:准备DLI源端数据 创建DLI弹性资源池及队列。 登录华为云控制台,服务列表选择“大数据 > 数据湖探索DLI”,进入DLI管理控制台。
表2 硬件配置 参数项 取值样例 计费模式 按需计费 可用区 可用区2 虚拟私有云 vpc-01 子网 subnet-01 安全组 自动创建 弹性公网IP 10.x.x.x 企业项目 default Master节点 2 分析Core节点 3 分析Task节点 0 填写高级配置参数如下表
确保MRS跟DWS网络互联互通,主要分以下几种场景: 场景一:MRS与DWS在同一个区域、同一个VPC下,默认网络互通。 场景二:MRS与DWS在同一个区域,不同VPC下,需要建立VPC对等连接,参见对接连接简介。
所有DN都参与数据导入,这样可以充分利用各设备的计算能力及网络带宽,提升导入效率。 外表灵活的OPTION设置,有利于在数据入库前对数据做预处理,例如非法字符替换、容错处理等。
cd /opt/bin/dws/gds/bin python3 gds_ctl.py stop 父主题: 使用GDS从远端服务器导入数据
1 chown -R gdsuser:gdsgrp /output_data 父主题: 使用GDS导出数据到远端服务器
这种保存着待入库数据的服务器为数据服务器。此时,只需检测以确认数据服务器和GaussDB(DWS)集群能够正常通信,并查看和记录数据在数据服务器上的存放目录备用。 如果待入库数据还没有就绪,则请先参考如下步骤,将数据上传到数据服务器上。 操作步骤 以root用户登录数据服务器。
GDS导入示例 多数据服务器并行导入 规划数据服务器与集群处于同一内网,数据服务器IP为192.168.0.90和192.168.0.91。数据源文件格式为CSV。 以root用户登录每台GDS数据服务器,在两台数据服务器上,分别创建数据文件存放目录“/input_data”。
cd /opt/bin/dws/gds/bin python3 gds_ctl.py stop 父主题: 使用GDS导出数据到远端服务器
父主题: 使用GDS从远端服务器导入数据
其中设置的导出模式信息如下所示: 规划数据服务器与集群处于同一内网,数据服务器IP为192.168.0.90,待导出的数据文件格式为CSV,选择并行导出模式为Remote模式。
创建GDS外表 外表中配置了数据源格式信息、GDS服务的访问信息,从而GaussDB(DWS)最终可以通过外表将数据服务器上的数据引流进数据库实表中。 操作步骤 收集数据源格式信息、GDS服务的访问信息。
GDS导出示例 Remote模式导出 规划数据服务器与集群处于同一内网,数据服务器IP为192.168.0.90,导出数据文件格式为CSV,所以规划的并行导出模式为Remote模式。
1 SELECT * FROM mys_data.mys_order; 步骤二:创建GaussDB(DWS)集群 创建集群,同时为确保网络连通,GaussDB(DWS)集群的区域、VPC选择与RDS实例保持一致,本实践为“华北-北京四”,虚拟私有云与上面创建RDS的虚拟私有云保持一致
例如,创建GaussDB(DWS) 集群时,需要配置集群所属的虚拟私有云,为了能获取VPC列表,您需在策略语句中添加授权项“vpc:*:get*”。 创建用户组。 具体操作,请参见《统一身份认证服务用户指南》中的创建用户组。
创建ECS 参见自定义购买弹性云服务器购买。购买后,参见登录Linux弹性云服务器进行登录。
图1 Kafka实时入库DWS 本实践预计时长90分钟,实践用到的云服务包括虚拟私有云 VPC及子网、弹性负载均衡 ELB、弹性云服务器 ECS、对象存储服务 OBS、分布式消息服务 Kafka、数据湖探索 DLI和数据仓库服务 GaussDB(DWS),基本流程如下: 准备工作
测试方法 总体流程 创建弹性云服务器ECS和数据仓库GaussDB(DWS) 构建TPC-H&TPC-DS使用数据 建表与数据导入 执行查询与结果收集