检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用GDS从远端服务器导入数据 关于GDS并行导入 准备源数据 安装配置和启动GDS 创建GDS外表 执行导入数据 处理导入错误 停止GDS GDS导入示例 父主题: 导入数据
相关概念 数据文件:存储有数据的TEXT、CSV或FIXED文件。文件中保存的是从GaussDB(DWS)数据库导出的数据。 外表:用于规划导出数据文件的数据文件格式、存放位置、编码格式等信息。 GDS:数据服务工具。在导出数据时,需要将此工具部署到数据文件所在的服务器上,使DN可以通过该工具导出数据。
使用GDS导出数据到远端服务器 关于GDS并行导出 规划导出数据 安装配置和启动GDS 创建GDS外表 执行导出数据 停止GDS GDS导出示例 父主题: 导出数据
户数据及实现数据的高速导入。GDS需部署到数据服务器上。 数据量大,数据存储在多个服务器上时,在每个数据服务器上安装配置、启动GDS后,各服务器上的数据可以并行入库。GDS在各台数据服务器上的安装配置和启动方法相同,本节以一台服务器为例进行说明。 背景信息 GDS的版本需与集群版本保持一致(如:GDS
待入库数据的服务器为数据服务器。此时,只需检测以确认数据服务器和GaussDB(DWS)集群能够正常通信,并查看和记录数据在数据服务器上的存放目录备用。 如果待入库数据还没有就绪,则请先参考如下步骤,将数据上传到数据服务器上。 操作步骤 以root用户登录数据服务器。 创建数据文件存放目录“/input_data”。
检查和调整分布列,避免导入大量数据后发现数据倾斜,调整成本高。 前提条件 GDS服务器和GaussDB(DWS)集群之间网络可以互通。 需要创建一个弹性云服务器作为GDS服务器。 创建的弹性云服务器与GaussDB(DWS)集群应处于同一区域、同一虚拟私有云和子网。 操作步骤 在
Remote模式 以root用户登录GDS数据服务器,创建导出的数据文件存放目录“/output_data”。 1 mkdir -p /output_data (可选)创建用户及所属的用户组。此用户为启动GDS的用户,该用户需要拥有导出数据文件存放目录的写权限。 1 2 groupadd
根据错误表中的提示诊断加载错误并更正这些错误。 视频介绍 准备ECS作为GDS服务器 购买Linux弹性云服务器的操作步骤,请参见《弹性云服务器快速入门》中的自定义购买弹性云服务器。购买后,请参见登录Linux弹性云服务器进行登录。 ECS操作系统必须是GDS工具包所支持的操作系统。 ECS与DWS处于同一区域、同一虚拟私有云和子网。
EXISTS 如果指定的表不存在,则发出一个notice而不是抛出一个错误。 server_name 服务器名称。 CASCADE | RESTRICT CASCADE:级联删除依赖于server的对象 。 RESTRICT(缺省值):如果存在依赖对象,则拒绝删除该server。 示例
EXISTS 如果指定的表不存在,则发出一个notice而不是抛出一个错误。 server_name 服务器名称。 CASCADE | RESTRICT CASCADE:级联删除依赖于server的对象 。 RESTRICT(缺省值):如果存在依赖对象,则拒绝删除该server。 示例
</config> 配置文件信息如下: 数据服务器所在IP为192.168.0.90,GDS监听端口为5000。 数据文件存放在“/input_data/”目录下。 错误日志文件存放在“/err”目录下。该目录需要拥有GDS读写权限的用户自行创建。 单个数据文件大小为100MB。 每个错误日志大小为100MB。
CREATE SERVER 功能描述 创建一个外部服务器。 外部服务器是存储HDFS集群信息、OBS服务器信息、DLI连接信息或其他同构集群信息的载体。 注意事项 默认只有系统管理员才可以创建外部服务器,否则需要对所使用的FOREIGN DATA WRAPPER授权,授权语法为:
停止GDS 操作场景 待导入数据成功后,停止GDS。 操作步骤 以gds_user用户登录安装GDS的数据服务器。 请根据启动GDS的方式,选择停止GDS的方式。 若用户使用“gds”命令启动GDS,请使用以下方式停止GDS。 执行如下命令,查询GDS进程号。 ps -ef|grep
CREATE SERVER 功能描述 创建一个外部服务器。 外部服务器是存储HDFS集群信息、OBS服务器信息、DLI连接信息或其他同构集群信息的载体。 注意事项 默认只有系统管理员才可以创建外部服务器,否则需要对所使用的FOREIGN DATA WRAPPER授权,授权语法为:
customer_address_ext用于接收数据服务器上的数据。 假设OBS数据服务器与集群网络连接正常,OBS数据服务器IP为xxx.xxx.x.xx,数据源文件格式为CSV,规划的并行导入与示例保持一致。 其中设置的导入信息如下所示: 由于OBS服务器上的数据源文件存放目录为“/input-data1/data/
表机制的配合,实现数据的高速导出。 当不在使用GDS时,可通过以下步骤停止GDS。 操作步骤 以gds_user用户登录安装GDS的数据服务器。 请根据启动GDS的方式,选择停止GDS的方式。 若用户使用“gds”命令启动GDS,请使用以下方式停止GDS。 执行如下命令,查询GDS进程号。
受或者拒绝共享申请。 使用者接受共享申请,子网共享成功。 如果后续使用者不再需要使用该共享子网,可以退出该共享。 使用者拒绝共享申请,子网共享失败。 创建共享 接受共享邀请 退出共享 方法B 通过RAM管理控制台,所有者创建共享,将子网共享给使用者。配置如下: 选择共享子网。 为
单击“设置”按钮,可根据需求设置相应参数。 图1 数据库开发设置 表1 设置参数 设置 设置描述 编辑器 主要是对编辑器主题部分编写SQL的基础设置,比如默认选择自动联想,可补全一些关键字;选择字段提示,在写TABLE表时联想到里面的字段等。 快捷键 在编辑器上操作时可以使用快捷键来快速编写SQL。
连接设置 介绍设置客户端和服务器连接方式相关的参数。 max_connections 参数说明:允许和数据库连接的最大并发连接数。此参数会影响集群的并发能力。 参数类型:POSTMASTER 取值范围:整型。CN最小值为100,最大值为16384;DN最小值为100, 最大值为2
参见“创建集群”章节创建GaussDB(DWS)数据仓库。创建成功后,记录集群的内网IP。 为确保ECS与GaussDB(DWS)网络互通,GaussDB(DWS)数据仓库需要与ECS在同一个区域,同一个虚拟私有云和子网下。 表1 DWS规格 参数项 参数取值 区域 华北-北京4 可用区 可用区1