数据仓库服务 GaussDB(DWS)-关于GDS并行导入:概述

时间:2023-11-01 16:15:35

概述

并行导入将存储在服务器普通文件系统中的数据导入到 GaussDB (DWS)数据库中。暂时不支持将存储在HDFS文件系统上的数据导入GaussDB(DWS)

并行导入功能通过外表设置的导入策略、导入数据格式等信息来识别数据源文件,利用多DN并行的方式,将数据从数据源文件导入到数据库中,从而提高整体导入性能。如图1所示:

  • CN只负责任务的规划及下发,把数据导入的工作交给了DN,释放了CN的资源,使其有能力处理其他外部请求。
  • 所有DN都参与数据导入,这样可以充分利用各设备的计算能力及网络带宽,提升导入效率。
外表灵活的OPTION设置,有利于在数据入库前对数据做预处理,例如非法字符替换、容错处理等。
图1 数据并行导入示意图

上图中所涉及的相关概念说明如下:

  • CN(Coordinator)GaussDB(DWS)协调节点。在导入场景下,接收到应用或客户端的导入SQL指令后,负责任务的规划及下发到DN。
  • DN(Datanode)GaussDB(DWS)数据节点。接收CN下发的导入任务,将数据源文件中的数据通过外表写入数据库目标表中。
  • 数据源文件:存有数据的文件。文件中保存的是待导入数据库的数据。
  • 数据服务器:数据源文件所在的服务器称为数据服务器。基于安全考虑,建议数据服务器和GaussDB(DWS)集群处于同一内网。
  • 外表Foreign Table:用于识别数据源文件的位置、文件格式、存放位置、编码格式、数据间的分隔符等信息。是关联数据文件与数据库实表(目标表)的对象。
  • 目标表:数据库中的实表。数据源文件中的数据最终导入到这些表中存储,包括行存表和列存表。
support.huaweicloud.com/devg-811-dws/dws_04_0190.html