检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
目标表:数据库中的实表。数据源文件中的数据最终导入到这些表中存储,包括行存表和列存表。 GDS并发导入 数据量大,数据存储在多个服务器上时,在每个数据服务器上安装配置、启动GDS后,各服务器上的数据可以并行入库。如图2所示。 图2 多数据服务器并行导入 GDS进程数目不能超过DN数目。如
(DWS)最终可以通过外表将数据服务器上的数据引流进数据库实表中。 操作步骤 收集数据源格式信息、GDS服务的访问信息。 需要收集的主要数据源格式信息如下: format:GDS外表导入支持CSV、TEXT和FIXED格式。请确认存放在数据服务器上待入库数据的格式。例如,待入库的数据为CSV格式。
用于数据库整体的访问权限)信息。 操作步骤 准备ECS作为gsql客户端主机。 请参见下载客户端下载gsql客户端,并使用SSH文件传输工具(例如WinSCP工具),将客户端工具上传到一个待安装gsql的Linux主机上。 执行上传gsql操作的用户需要对客户端主机的目标存放目录有完全控制权限。
检查和调整分布列,避免导入大量数据后发现数据倾斜,调整成本高。 前提条件 GDS服务器和GaussDB(DWS)集群之间网络可以互通。 需要创建一个弹性云服务器作为GDS服务器。 创建的弹性云服务器与GaussDB(DWS)集群应处于同一区域、同一虚拟私有云和子网。 操作步骤 在
导出ORC数据到OBS 规划导出数据 创建外部服务器 创建外表 执行导出 父主题: 导出数据到OBS
STDIN命令写数据到一个表。 使用GDS从远端服务器导入数据到GaussDB(DWS)。 当用户需要将普通文件系统(例如,弹性云服务器)中的数据文件导入到GaussDB(DWS)时,可以使用GaussDB(DWS)提供的GDS导入数据的功能。 使用CDM迁移数据到GaussDB(DWS)。
停止GDS 操作场景 待导入数据成功后,停止GDS。 操作步骤 以gds_user用户登录安装GDS的数据服务器。 请根据启动GDS的方式,选择停止GDS的方式。 若用户使用“gds”命令启动GDS,请使用以下方式停止GDS。 执行如下命令,查询GDS进程号。 ps -ef|grep
字段值长度超过限制。 在数据源文件中,修改字段值长度。根据此错误信息,字段值长度限制为VARCHAR2(16)。 父主题: 使用GDS从远端服务器导入数据
数据源文件:存储有数据的TEXT、CSV文件。 OBS:对象存储服务,是一种可存储文档、图片、影音视频等非结构化数据的云存储服务。从GaussDB(DWS)并行导出数据时,数据对象放置在OBS服务器上。 桶(Bucket):对OBS中的一个存储空间的形象称呼,是存储对象的容器。 对象
支持将存储在OBS上的TXT、CSV、ORC及CARBONDATA格式的数据并行导入到GaussDB(DWS),支持导入后查询数据,也支持远程读OBS上的数据。 GaussDB(DWS)优先推荐的导入方式。 并行拉取方式,性能好,横向扩展。 使用GDS从远端服务器导入数据 Servers(即远端服务器)
规划导出数据 操作场景 在OBS上规划导出数据存放的位置。 规划OBS存储位置和文件 导出数据需要指定数据在OBS中的存储路径(需指定到目录),导出的数据可以按CSV解析格式保存到文件中。系统还支持TEXT类型的解析格式,将数据导出保存便于导入不同的应用程序。 导出路径的目标目录中不能存在任何文件。
创建弹性云服务器ECS和数据仓库GaussDB(DWS) 创建弹性云服务器ECS 创建数据仓库GaussDB(DWS) 父主题: 测试方法
type_name:字段的数据类型。 多个字段用“,”隔开。 SERVER dfs_server 外表的外部服务器名称,这个server必须存在。外表通过设置外部服务器连接OBS/HDFS读取数据。 此处应参考创建外部服务器中创建的外部服务器名称填写。 OPTIONS参数 用于指定外表数据的各类参数,关键参数如下所示。
数据库中,GDS工具包需要安装在数据源文件所在的服务器上。数据源文件所在的服务器称为数据服务器,也称为GDS服务器。 下载客户端 表1 gsql下载地址 操作系统类别 适用操作系统版本 下载地址 校验文件 Windows Windows x86_64: Windows 7及以上。
GDS工具包需要安装在数据源文件所在的服务器上。数据源文件所在的服务器称为数据服务器,也称为GDS服务器。 下载客户端 登录GaussDB(DWS)管理控制台。 在左侧导航栏中,选择“管理 > 连接客户端”。 在“命令行客户端”的下拉列表中,选择对应版本的GaussDB(DWS)客户端。
用户通过管理控制台登录到OBS数据服务器。在OBS数据服务器上,分别创建数据文件存放的两个桶“/input-data1”和“/input-data2”,并创建每个桶下面的data目录“/input-data1/data”和“/input-data2/data”。 将数据源文件均匀上传至OBS数据服务器的“/
OBS上的数据准备 操作场景 使用SQL on OBS功能查询OBS数据之前: 已将ORC数据存储在OBS上。 例如,在使用Hive或Spark等组件时创建了ORC表,其表数据已经存储在OBS上的场景。 假设有2个ORC数据文件“product_info.0”和“product_info
面。 单击“文件管理”,选择“HDFS文件列表”。 进入您要导入到GaussDB(DWS)集群的数据的存储目录,并记录其路径。 图1 在MRS上查看数据存储路径 创建外表。 SERVER名字填写10创建的外部服务器名称,foldername填写1查到的路径。 1 2 3 4
导出ORC数据到MRS 导出ORC数据概述 规划导出数据 创建外部服务器 创建外表 执行导出 父主题: 导出数据
并行导入流程 表1 流程说明 流程 说明 子任务 上传数据至OBS 在OBS服务器上规划存储路径,并上传数据文件。 详细请参见上传数据到OBS。 - 创建OBS外表 创建外表用于识别OBS服务器上的数据源文件。在OBS外表中保存了数据源在OBS服务器上的桶名、对象名、文件格式、存放位置、编码格式、数据间的分隔符等信息。