数据仓库服务 GaussDB(DWS)数据导入导出

GaussDB(DWS)支持多种类型数据源,面向不同场景,提供全系列数据导入导出方案,搭建高效数据通道。

导入导出工具系列

      如表3-1所示,GaussDB(DWS)提供了一系列数据导入导出工具,可根据场景不同选择合适的工具。

表3-1 数据导入导出工具

适用场景
工具

大批量数据导入/导出

GDS

小批量数据导入/导出

copy to/from (file/Stdin)

查询结果集导出

copy query to/from (file/Stdin)

其他数据库小数据量导入/导出

insert into values / ETL

数据库元数据备份/恢复

gs_dump/gs_restore

从HDFS导入数据

HDFS外表

从OBS导入数据

OBS text外表/ OBS orc外表

集群间数据迁移/备份

Roach

GDS工具

      GaussDB(DWS)提供GDS(Gauss Data Service)工具,可以高效地进行文本数据导入导出。

      如图3-1,GDS服务器部署于集群每个物理节点上,可以实现数据的并行导入/导出,单机速度可达700MB/s。

图 3-1 基于GDS的数据并行导入/导出

      此外,借助外表数据封装器(Foreign Data Wrapper,简称FDW),不同的集群之间可以互相访问数据,例如在GaussDB集群A中访问GaussDB集群B中的数据。结合GDS,可以实现跨集群数据一键式高速迁移。如图3-2所示,通过GDS在两个集群之间形成高效的实时数据中转通路,将数据从源集群导出,不经落盘直接导入目标集群。

图3-2 用GDS实现跨集群数据迁移

      其技术特点是:

  • 使用方便简洁,一条SQL启动迁移业务(INSERT INTO … SELECT … FROM … [WHERE];)。
  • 性能高效,充分利用两端集群所有节点算力。
  • 中间数据不落盘,不占用磁盘空间。

    可以满足

  • GaussDB(DWS)集群间全量数据迁移同步
  • GaussDB(DWS)集群间过滤条件数据迁移同步

    等场景的性能需求。