数据仓库服务 GaussDB(DWS)数据导入导出
GaussDB(DWS)支持多种类型数据源,面向不同场景,提供全系列数据导入导出方案,搭建高效数据通道。
导入导出工具系列
如表3-1所示,GaussDB(DWS)提供了一系列数据导入导出工具,可根据场景不同选择合适的工具。
表3-1 数据导入导出工具
适用场景
|
工具
|
---|---|
大批量数据导入/导出 |
GDS |
小批量数据导入/导出 |
copy to/from (file/Stdin) |
查询结果集导出 |
copy query to/from (file/Stdin) |
其他数据库小数据量导入/导出 |
insert into values / ETL |
数据库元数据备份/恢复 |
gs_dump/gs_restore |
从HDFS导入数据 |
HDFS外表 |
从OBS导入数据 |
OBS text外表/ OBS orc外表 |
集群间数据迁移/备份 |
Roach |
GDS工具
GaussDB(DWS)提供GDS(Gauss Data Service)工具,可以高效地进行文本数据导入导出。
如图3-1,GDS服务器部署于集群每个物理节点上,可以实现数据的并行导入/导出,单机速度可达700MB/s。
图 3-1 基于GDS的数据并行导入/导出
此外,借助外表数据封装器(Foreign Data Wrapper,简称FDW),不同的集群之间可以互相访问数据,例如在GaussDB集群A中访问GaussDB集群B中的数据。结合GDS,可以实现跨集群数据一键式高速迁移。如图3-2所示,通过GDS在两个集群之间形成高效的实时数据中转通路,将数据从源集群导出,不经落盘直接导入目标集群。
图3-2 用GDS实现跨集群数据迁移
其技术特点是:
- 使用方便简洁,一条SQL启动迁移业务(INSERT INTO … SELECT … FROM … [WHERE];)。
- 性能高效,充分利用两端集群所有节点算力。
- 中间数据不落盘,不占用磁盘空间。
可以满足
- GaussDB(DWS)集群间全量数据迁移同步
- GaussDB(DWS)集群间过滤条件数据迁移同步
等场景的性能需求。