使用GDS从远端服务器导入数据-华为云

数据仓库服务 GAUSSDB(DWS)-关于GDS并行导入:概述

概述并行导入将存储在服务器普通文件系统中的数据导入到 GaussDB (DWS)数据库中。暂时不支持将存储在HDFS文件系统上的数据导入GaussDB(DWS)。并行导入功能通过外表设置的导入策略、导入数据格式等信息来识别数据源文件，利用多DN并行的方式，将数据从数据源文件导入到数据库中，从而提高整体导入性能。如图1所示： CN只负责任务的规划及下发，把数据导入的工作交给了DN，释放了CN的资源，使其有能力处理其他外部请求。所有DN都参与数据导入，这样可以充分利用各设备的计算能力及网络带宽，提升导入效率。外表灵活的OPTION设置，有利于在数据入库前对数据做预处理，例如非法字符替换、容错处理等。图1 数据并行导入示意图上图中所涉及的相关概念说明如下： CN（Coordinator）：GaussDB(DWS)协调节点。在导入场景下，接收到应用或客户端的导入SQL指令后，负责任务的规划及下发到DN。 DN（Datanode）：GaussDB(DWS)数据节点。接收CN下发的导入任务，将数据源文件中的数据通过外表写入数据库目标表中。数据源文件：存有数据的文件。文件中保存的是待导入数据库的数据。数据服务器：数据源文件所在的服务器称为数据服务器。基于安全考虑，建议数据服务器和GaussDB(DWS)集群处于同一内网。外表Foreign Table：用于识别数据源文件的位置、文件格式、存放位置、编码格式、数据间的分隔符等信息。是关联数据文件与数据库实表（目标表）的对象。目标表：数据库中的实表。数据源文件中的数据最终导入到这些表中存储，包括行存表和列存表。

数据仓库服务 GAUSSDB(DWS) 使用GDS从远端服务器导入数据

数据仓库服务 GAUSSDB(DWS)-关于GDS并行导入:导入流程

导入流程图3 GDS并行导入流程表1 流程说明流程说明准备源数据。准备需要导入数据库的源数据文件，并上传至数据服务器。详细内容请参见准备源数据。启动GDS。在数据服务器上安装配置并启动GDS。详细内容请参见安装配置和启动GDS。创建外表。创建外表用于识别数据源文件中的数据。外表中保存了数据源文件的位置、文件格式、存放位置、编码格式、数据间的分隔符等信息。详细内容请参见创建GDS外表。执行导入数据。在创建好外表后，通过INSERT语句，将数据快速、高效地导入到目标表中。详细内容请参见执行导入数据。处理错误表。在数据并行导入发生错误时，请根据具体的错误信息进行处理，以保证导入数据的完整性。详细内容请参见处理导入错误。优化查询效率。导入数据后，通过ANALYZE语句生成表统计信息。ANALYZE语句会将统计结果自动存储在系统表PG_STATISTIC中。执行计划生成器会使用这些统计数据，以生成最有效的查询执行计划。停止GDS 待数据导入完成后，登录每台数据服务器，分别停止GDS。 GDS的停止请参见停止GDS。

数据仓库服务 GAUSSDB(DWS) 使用GDS从远端服务器导入数据

数据仓库服务 GAUSSDB(DWS)-关于GDS并行导入:GDS并发导入

GDS并发导入数据量大，数据存储在多个服务器上时，在每个数据服务器上安装配置、启动GDS后，各服务器上的数据可以并行入库。如图2所示。图2 多数据服务器并行导入 GDS进程数目不能超过DN数目。如果超过，会出现一个DN连接多个GDS进程的情形，可能会导致部分GDS异常运行。数据存储在一台数据服务器上时，如果GaussDB(DWS)及数据服务器上的I/O资源均还有可利用空间时，可以采用GDS多线程来支持并发导入。 GDS是根据导入事务并发数来决定服务运行线程数的，也就是说即使启动GDS时设置了多线程，也并不会加速单个导入事务。未做过人为事务处理时，一条INSERT语句就是一个导入事务。综上，多线程的使用场景如下：多表并发导入时，采用多线程充分利用资源及提升并发导入效率。对数据量大的某一事实表的导入进行提速。将该事实表对应的数据拆分为多个数据文件，通过多外表同时入库的方式实现多线程并发导入。注意需确保每个外表所能读取的数据文件不重复。

数据仓库服务 GAUSSDB(DWS) 使用GDS从远端服务器导入数据

云数据库 GAUSSDB-教程指引

教程指引本教程旨在演示使用GDS（Gauss Data Service）工具将远端服务器上的数据导入GaussDB中的办法，帮助您学习如何通过GDS进行数据导入的方法。在本教程中，您将：生成本教程需要使用的 CS V格式的数据源文件。将数据源文件上传到数据服务器。创建外表，用于对接GDS和GaussDB，及将数据服务器上的数据引流到GaussDB集群中。启动GaussDB并创建数据库表后，将数据导入到表中。根据错误表中的提示诊断加载错误并更正这些错误。父主题：教程：使用GDS从远端服务器导入数据

云数据库 GAUSSDB 教程：使用GDS从远端服务器导入数据

云数据库 GAUSSDB-步骤5：分析和处理错误表中的错误信息

步骤5：分析和处理错误表中的错误信息对数据导入过程中出现的数据格式错误信息进行处理，若没有错误信息，此步骤可跳过。查询错误信息。 1 postgres=# SELECT * FROM product_info_err ; 处理错误表中的错误信息。按照本教程的示例操作，错误表中应该无错误信息。您也可以将步骤2：在数据服务器上安装配置和启动GDS一节所建外表中的FILL_MISSING_FIELDS和IGNORE_EXTRA_DATA改为 'false'后，重新进行数据导入并查询错误表。此时，您将看到因如下原因带来的数据格式错误信息记录：源数据文件product_info2.csv中第2条记录的最后一个字段“product_comment_content”缺失。源数据文件product_info2.csv中第3条记录比外表定义列数多。更多关于错误表及错误信息的处理请参见处理错误表。父主题：教程：使用GDS从远端服务器导入数据

云数据库 GAUSSDB 教程：使用GDS从远端服务器导入数据

云数据库 GAUSSDB-步骤6：优化导入数据的查询性能

步骤6：优化导入数据的查询性能在数据导入完成后，执行ANALYZE语句生成表统计信息。执行计划生成器会使用这些统计数据，以生成最有效的查询执行计划。如果导入过程中，进行了大量的更新或删除行时，应运行VACUUM FULL命令，然后运行ANALYZE命令。大量的更新和删除操作，会产生大量的磁盘页面碎片，从而逐渐降低查询的效率。VACUUM FULL可以将磁盘页面碎片恢复并交还操作系统。对表product_info执行VACUUM FULL。 1 postgres=# VACUUM FULL product_info; VACUUM 更新表product_info的统计信息。 1 postgres=# ANALYZE product_info; ANALYZE 父主题：教程：使用GDS从远端服务器导入数据

云数据库 GAUSSDB 教程：使用GDS从远端服务器导入数据

数据仓库服务 GAUSSDB(DWS)-安装配置和启动GDS:背景信息

背景信息 GDS支持在如下的操作系统中安装：鲲鹏平台： Community Enterprise Operating System 7.6。 EulerOS 2.0 SP8。 Red Hat Enterprise Linux Server release 7.5。中标麒麟7.5/7.6。 x86平台： SUSE Linux Enterprise Server 10 SP4 x86_64。 SUSE Linux Enterprise Server 11 SP1/SP2/SP3/SP4 x86_64。 SUSE Linux Enterprise Server 12 SP0/SP1/SP2/SP3/SP5 x86_64。 Red Hat Enterprise Linux Server release 6.4/6.5/6.6/6.7/6.8/6.9/7.0/7.1/7.2/7.3/7.4/7.5 x86_64。 Community Enterprise Operating System 6.4/6.5/6.6/6.7/6.8/6.9/7.0/7.1/7.2/7.3/7.4 x86_64。 EulerOS 2.5 x86_64。 GDS的版本需与集群版本保持一致（如：GDS V100R008C00版本与DWS 1.3.X版本配套），否则可能会出现导入导出失败或导入导出进程停止响应等情况。因此请勿使用历史版本的GDS进行导入。数据库版本升级后，请按照操作步骤中的办法下载GaussDB(DWS)软件包解压缩自带的GDS进行安装配置和启动。在导入导出开始时，GaussDB(DWS)也会进行两端的版本一致性检测，不一致时会打屏显示报错信息并终止对应操作。 GDS的版本号的查看办法为：在GDS工具的解压目录下执行如下命令。 gds -V 数据库版本的查看办法为：连接数据库后，执行如下SQL命令查看。 1 SELECT version();

数据仓库服务 GAUSSDB(DWS) 使用GDS从远端服务器导入数据

数据仓库服务 GAUSSDB(DWS)-安装配置和启动GDS:gds.conf参数说明

gds.conf参数说明表1 gds.conf配置说明属性说明取值范围 name 标识名。 - ip 监听ip地址。 IP需为合法IP地址。 IP的默认值：127.0.0.1 port 监听端口号。取值范围：1024~65535，正整数。默认值：8098。 data_dir 数据文件目录。 - err_dir 错误日志文件目录。默认值：数据文件目录 log_file 日志文件路径。 - host 设置允许连接到GDS的主机IP地址（参数为CIDR格式，仅支持linux系统）。 - recursive 是否递归数据文件目录。取值范围： true：递归。 false：不递归。默认值：false。 daemon 是否以DAEMON（后台）模式运行。取值范围： true：以DAEMON模式运行。 false：不以DAEMON模式运行。默认值：false。 parallel 导入工作线程并发数目。取值范围：0~200，正整数。默认值：8。

数据仓库服务 GAUSSDB(DWS) 使用GDS从远端服务器导入数据

数据仓库服务 GAUSSDB(DWS)-GDS导入示例:集群间不落地数据导入

集群间不落地数据导入启动GDS。（如果已经启动跳过此步骤） gds -d /***/gds_data/ -D -p GDS_IP:GDS_PORT -l /***/gds_log/aa.log -H 0/0 -t 10 -D 如果需要设置管道文件的超时时间，则使用--pipe-timeout参数设置。源数据库数据导出。登录目标数据库创建内表，并写入数据。 CREATE TABLE test_pipe( id integer not null, sex text not null, name text ); INSERT INTO test_pipe values(1,2,'11111111111111'); INSERT INTO test_pipe values(2,2,'11111111111111'); INSERT INTO test_pipe values(3,2,'11111111111111'); INSERT INTO test_pipe values(4,2,'11111111111111'); INSERT INTO test_pipe values(5,2,'11111111111111'); 创建只写外表。 CREATE FOREIGN TABLE foreign_test_pipe( id integer not null, age text not null, name text ) SERVER gsmpp_server OPTIONS (LOCATION 'gsfs://GDS_IP:GDS_PORT/', FORMAT 'text', DELIMITER ',', NULL '', EOL '0x0a' ,file_type 'pipe') WRITE ONLY; 导入语句，此时语句会阻塞。 INSERT INTO foreign_test_pipe SELECT * FROM test_pipe; 目标集群导入数据。创建内表。 CREATE TABLE test_pipe (id integer not null, sex text not null, name text); 创建只读外表。 CREATE FOREIGN TABLE foreign_test_pipe(like test_pipe) SERVER gsmpp_server OPTIONS (LOCATION 'gsfs://GDS_IP:GDS_PORT/', FORMAT 'text', DELIMITER ',', NULL '', EOL '0x0a' , file_type 'pipe', auto_create_pipe 'false'); 执行导入语句： INSERT INTO test_pipe SELECT * FROM foreign_test_pipe; 查看目标集群导入语句返回的结果： SELECT * FROM test_pipe; id | sex | name ----+-----+---------------- 3 | 2 | 11111111111111 6 | 2 | 11111111111111 7 | 2 | 11111111111111 1 | 2 | 11111111111111 2 | 2 | 11111111111111 4 | 2 | 11111111111111 5 | 2 | 11111111111111 8 | 2 | 11111111111111 9 | 2 | 11111111111111 (9 rows) GDS默认导出或者导入的管道文件命名规则为：“数据库名_模式名_外表名.pipe”，因此默认需要目标集群与源集群的数据库名及模式名保持一致。如果数据库或模式不一致，则可以在location的url中指定相同的管道文件。示例：只写外表指定管道名。 CREATE FOREIGN TABLE foreign_test_pipe(id integer not null, age text not null, name text) SERVER gsmpp_server OPTIONS (LOCATION 'gsfs://GDS_IP:GDS_PORT/foreign_test_pipe.pipe', FORMAT 'text', DELIMITER ',', NULL '', EOL '0x0a' ,file_type 'pipe') WRITE ONLY; 只读外表指定管道名。 CREATE FOREIGN TABLE foreign_test_pipe(like test_pipe) SERVER gsmpp_server OPTIONS (LOCATION 'gsfs://GDS_IP:GDS_PORT/foreign_test_pipe.pipe', FORMAT 'text', DELIMITER ',', NULL '', EOL '0x0a' ,file_type 'pipe',auto_create_pipe 'false');

数据仓库服务 GAUSSDB(DWS) 使用GDS从远端服务器导入数据

数据仓库服务 GAUSSDB(DWS)-GDS导入示例:多线程导入

多线程导入规划数据服务器与集群处于同一内网，数据服务器IP为192.168.0.90，导入的数据源文件格式为CSV，同时导入2个目标表。以root用户登录GDS数据服务器，创建数据文件存放目录“/input_data”，以及子目录“/input_data/import1/”和“/input_data/import2/”。 mkdir -p /input_data 将目标表tpcds.reasons1的数据源文件存放在数据服务器“/input_data/import1/”目录下，将目标表tpcds.reasons2的数据源文件存放在目录“/input_data/import2/”下。（可选）创建用户及其所属的用户组。此用户用于启动GDS。若该用户及所属用户组已存在，可跳过此步骤。 groupadd gdsgrp useradd -g gdsgrp gds_user 修改数据服务器上数据文件及数据文件目录“/input_data”的属主为gds_user。 chown -R gds_user:gdsgrp /input_data 以gds_user用户登录数据服务器上启动GDS。其中GDS安装路径为“/opt/bin/dws/gds”，数据文件存放在“/input_data/”目录下，数据服务器所在IP为192.168.0.90，GDS监听端口为5000，以后台方式运行，设定并发度为2，并设定递归文件目录。 /opt/bin/dws/gds/bin/gds -d /input_data -p 192.168.0.90:5000 -H 10.10.0.1/24 -D -t 2 -r 使用工具连接数据库。详见连接数据库。在数据库中创建导入的目标表tpcds.reasons1和tpcds.reasons2。 1 2 3 4 5 6 CREATE TABLE tpcds.reasons1 ( r_reason_sk integer not null, r_reason_id char(16) not null, r_reason_desc char(100) ) ; 1 2 3 4 5 6 CREATE TABLE tpcds.reasons2 ( r_reason_sk integer not null, r_reason_id char(16) not null, r_reason_desc char(100) ) ; 在数据库中创建外表tpcds.foreign_tpcds_reasons1和tpcds.foreign_tpcds_reasons2用于接收数据服务器上的数据。以下以外表tpcds.foreign_tpcds_reasons1为例，讲解设置的导入外表参数信息。其中设置的导入模式信息如下所示：导入模式为Normal模式。由于启动GDS时，设置的数据源文件存放目录为“/input_data/”，GDS监听端口为5000，实际存放数据源文件目录为“/input_data/import1/”，所以设置参数“location”为“gsfs://192.168.0.90:5000/import1/*”。设置的数据格式信息是根据导出时设置的详细数据格式参数信息指定的，参数设置如下所示：数据源文件格式（format）为CSV。编码格式（encoding）为UTF-8。字段分隔符（delimiter）为E'\x08'。引号字符（quote）为E'\x1b'。数据文件中空值（null）为没有引号的空字符串。逃逸字符（escape）默认和quote相同。数据文件是否包含标题行（header）为默认值false，即导入时数据文件第一行被识别为数据。设置的导入容错性如下所示：允许出现的数据格式错误个数（PER NODE REJECT LIMIT 'value'）为unlimited，即接受导入过程中所有数据格式错误。将数据导入过程中出现的数据格式错误信息（ LOG INTO error_table_name）写入表err_tpcds_reasons1。当数据源文件中一行的最后一个字段缺失（fill_missing_fields）时，自动设置为NULL。根据以上信息，创建的外表tpcds.foreign_tpcds_reasons1如下所示： 1 2 3 4 5 6 CREATE FOREIGN TABLE tpcds.foreign_tpcds_reasons1 ( r_reason_sk integer not null, r_reason_id char(16) not null, r_reason_desc char(100) ) SERVER gsmpp_server OPTIONS (location 'gsfs://192.168.0.90:5000/import1/*', format 'CSV',mode 'Normal', encoding 'utf8', delimiter E'\x08', quote E'\x1b', null '',fill_missing_fields 'on')LOG INTO err_tpcds_reasons1 PER NODE REJECT LIMIT 'unlimited'; 参考以上设置，创建的外表tpcds.foreign_tpcds_reasons2如下所示： 1 2 3 4 5 6 CREATE FOREIGN TABLE tpcds.foreign_tpcds_reasons2 ( r_reason_sk integer not null, r_reason_id char(16) not null, r_reason_desc char(100) ) SERVER gsmpp_server OPTIONS (location 'gsfs://192.168.0.90:5000/import2/*', format 'CSV',mode 'Normal', encoding 'utf8', delimiter E'\x08', quote E'\x1b', null '',fill_missing_fields 'on')LOG INTO err_tpcds_reasons2 PER NODE REJECT LIMIT 'unlimited'; 通过外表tpcds.foreign_tpcds_reasons1和tpcds.foreign_tpcds_reasons2将数据分别导入tpcds.reasons1和tpcds.reasons2。 1 INSERT INTO tpcds.reasons1 SELECT * FROM tpcds.foreign_tpcds_reasons1; 1 INSERT INTO tpcds.reasons2 SELECT * FROM tpcds.foreign_tpcds_reasons2; 查询错误信息表err_tpcds_reasons1和err_tpcds_reasons2，处理数据导入错误。详细请参见处理错误表。 1 2 SELECT * FROM err_tpcds_reasons1; SELECT * FROM err_tpcds_reasons2; 待数据导入完成后，以gds_user用户登录数据服务器，停止GDS。其中GDS进程号为128954。 ps -ef|grep gds gds_user 128954 1 0 15:03 ? 00:00:00 gds -d /input_data -p 192.168.0.90:5000 -D -t 2 -r gds_user 129003 118723 0 15:04 pts/0 00:00:00 grep gds kill -9 128954

数据仓库服务 GAUSSDB(DWS) 使用GDS从远端服务器导入数据

数据仓库服务 GAUSSDB(DWS)-GDS导入示例:多数据服务器并行导入

多数据服务器并行导入规划数据服务器与集群处于同一内网，数据服务器IP为192.168.0.90和192.168.0.91。数据源文件格式为CSV。以root用户登录每台GDS数据服务器，在两台数据服务器上，分别创建数据文件存放目录“/input_data”。以下以IP为192.168.0.90的数据服务器为例进行操作，剩余服务器上的操作与它一致。 mkdir -p /input_data （可选）创建用户及其所属的用户组。此用户用于启动GDS。若该类用户及所属用户组已存在，可跳过此步骤。 groupadd gdsgrp useradd -g gdsgrp gds_user 将准备好的CSV格式数据源文件均匀分发至相应数据服务器的“/input_data”目录中。修改每台数据服务器上数据文件及数据文件目录“/input_data”的属主为gds_user。以下以IP为192.168.0.90的数据服务器为例，进行操作。 chown -R gds_user:gdsgrp /input_data 以gds_user用户登录每台数据服务器上分别启动GDS。其中GDS安装路径为“/opt/bin/dws/gds”，数据文件存放在“/input_data/”目录下，数据服务器所在IP为192.168.0.90和192.168.0.91，GDS监听端口为5000，以后台方式运行。在IP为192.168.0.90的数据服务器上启动GDS。 /opt/bin/dws/gds/bin/gds -d /input_data -p 192.168.0.90:5000 -H 10.10.0.1/24 -D 在IP为192.168.0.91的数据服务器上启动GDS。 /opt/bin/dws/gds/bin/gds -d /input_data -p 192.168.0.91:5000 -H 10.10.0.1/24 -D 使用工具连接数据库。详见连接数据库。创建导入的目标表tpcds.reasons。 1 2 3 4 5 6 CREATE TABLE tpcds.reasons ( r_reason_sk integer not null, r_reason_id char(16) not null, r_reason_desc char(100) ); 创建外表tpcds.foreign_tpcds_reasons用于接收数据服务器上的数据。其中设置导入模式信息如下所示：导入模式为Normal模式。由于启动GDS时，设置的数据源文件存放目录为“/input_data”，GDS监听端口为5000，所以设置参数“location”为“gsfs://192.168.0.90:5000/* | gsfs://192.168.0.91:5000/*”。设置数据格式信息是根据导出时设置的详细数据格式参数信息指定的，参数设置如下所示：数据源文件格式（format）为CSV。编码格式（encoding）为UTF-8。字段分隔符（delimiter）为E'\x08'。引号字符（quote）为E'\x1b'。数据文件中空值（null）为没有引号的空字符串。逃逸字符（escape）默认和quote相同。数据文件是否包含标题行（header）为默认值false，即导入时数据文件第一行被识别为数据。设置导入容错性如下所示：允许出现的数据格式错误个数（PER NODE REJECT LIMIT 'value'）为unlimited，即接受导入过程中所有数据格式错误。将数据导入过程中出现的数据格式错误信息（LOG INTO error_table_name）写入表err_tpcds_reasons。根据以上信息，创建的外表如下所示： 1 2 3 4 5 6 7 CREATE FOREIGN TABLE tpcds.foreign_tpcds_reasons ( r_reason_sk integer not null, r_reason_id char(16) not null, r_reason_desc char(100) ) SERVER gsmpp_server OPTIONS (location 'gsfs://192.168.0.90:5000/* | gsfs://192.168.0.91:5000/*', format 'CSV',mode 'Normal', encoding 'utf8', delimter E'\x08', quote E'\x1b', null '', fill_missing_fields 'false') LOG INTO err_tpcds_reasons PER NODE REJECT LIMIT 'unlimited'; 通过外表tpcds.foreign_tpcds_reasons，将数据导入目标表tpcds.reasons。 1 INSERT INTO tpcds.reasons SELECT * FROM tpcds.foreign_tpcds_reasons; 查询错误信息表err_tpcds_reasons，处理数据导入错误。详细请参见处理错误表。 1 SELECT * FROM err_tpcds_reasons; 待数据导入完成后，以gds_user用户登录每台数据服务器，分别停止GDS。以下以IP为192.168.0.90的数据服务器为例，停止GDS。其中GDS进程号为128954。 ps -ef|grep gds gds_user 128954 1 0 15:03 ? 00:00:00 gds -d /input_data -p 192.168.0.90:5000 -D gds_user 129003 118723 0 15:04 pts/0 00:00:00 grep gds kill -9 128954

数据仓库服务 GAUSSDB(DWS) 使用GDS从远端服务器导入数据

云数据库 GaussDB-教程指引

教程指引本教程旨在演示使用GDS（Gauss Data Service）工具将远端服务器上的数据导入GaussDB中的办法，帮助您学习如何通过GDS进行数据导入的方法。在本教程中，您将：生成本教程需要使用的CSV格式的数据源文件。将数据源文件上传到数据服务器。创建外表，用于对接GDS和GaussDB，及将数据服务器上的数据引流到GaussDB集群中。启动GaussDB并创建数据库表后，将数据导入到表中。根据错误表中的提示诊断加载错误并更正这些错误。父主题：教程：使用GDS从远端服务器导入数据

云数据库 GaussDB 教程：使用GDS从远端服务器导入数据

数据仓库服务 GaussDB(DWS)-关于GDS并行导入:概述

概述并行导入将存储在服务器普通文件系统中的数据导入到GaussDB(DWS)数据库中。暂时不支持将存储在HDFS文件系统上的数据导入GaussDB(DWS)。并行导入功能通过外表设置的导入策略、导入数据格式等信息来识别数据源文件，利用多DN并行的方式，将数据从数据源文件导入到数据库中，从而提高整体导入性能。如图1所示： CN只负责任务的规划及下发，把数据导入的工作交给了DN，释放了CN的资源，使其有能力处理其他外部请求。所有DN都参与数据导入，这样可以充分利用各设备的计算能力及网络带宽，提升导入效率。外表灵活的OPTION设置，有利于在数据入库前对数据做预处理，例如非法字符替换、容错处理等。图1 数据并行导入示意图上图中所涉及的相关概念说明如下： CN（Coordinator）：GaussDB(DWS)协调节点。在导入场景下，接收到应用或客户端的导入SQL指令后，负责任务的规划及下发到DN。 DN（Datanode）：GaussDB(DWS)数据节点。接收CN下发的导入任务，将数据源文件中的数据通过外表写入数据库目标表中。数据源文件：存有数据的文件。文件中保存的是待导入数据库的数据。数据服务器：数据源文件所在的服务器称为数据服务器。基于安全考虑，建议数据服务器和GaussDB(DWS)集群处于同一内网。外表Foreign Table：用于识别数据源文件的位置、文件格式、存放位置、编码格式、数据间的分隔符等信息。是关联数据文件与数据库实表（目标表）的对象。目标表：数据库中的实表。数据源文件中的数据最终导入到这些表中存储，包括行存表和列存表。

数据仓库服务 GaussDB(DWS) 使用GDS从远端服务器导入数据

数据仓库服务 GaussDB(DWS)-关于GDS并行导入:导入流程

导入流程图3 GDS并行导入流程表1 流程说明流程说明准备源数据。准备需要导入数据库的源数据文件，并上传至数据服务器。详细内容请参见准备源数据。启动GDS。在数据服务器上安装配置并启动GDS。详细内容请参见安装配置和启动GDS。创建外表。创建外表用于识别数据源文件中的数据。外表中保存了数据源文件的位置、文件格式、存放位置、编码格式、数据间的分隔符等信息。详细内容请参见创建GDS外表。执行导入数据。在创建好外表后，通过INSERT语句，将数据快速、高效地导入到目标表中。详细内容请参见执行导入数据。处理错误表。在数据并行导入发生错误时，请根据具体的错误信息进行处理，以保证导入数据的完整性。详细内容请参见处理错误表。优化查询效率。导入数据后，通过ANALYZE语句生成表统计信息。ANALYZE语句会将统计结果自动存储在系统表PG_STATISTIC中。执行计划生成器会使用这些统计数据，以生成最有效的查询执行计划。停止GDS 待数据导入完成后，登录每台数据服务器，分别停止GDS。 GDS的停止请参见停止GDS。

数据仓库服务 GaussDB(DWS) 使用GDS从远端服务器导入数据

数据仓库服务 GaussDB(DWS)-关于GDS并行导入:GDS并发导入

GDS并发导入数据量大，数据存储在多个服务器上时，在每个数据服务器上安装配置、启动GDS后，各服务器上的数据可以并行入库。如图2所示。图2 多数据服务器并行导入 GDS进程数目不能超过DN数目。如果超过，会出现一个DN连接多个GDS进程的情形，可能会导致部分GDS异常运行。数据存储在一台数据服务器上时，如果GaussDB(DWS)及数据服务器上的I/O资源均还有可利用空间时，可以采用GDS多线程来支持并发导入。 GDS是根据导入事务并发数来决定服务运行线程数的。也就是说即使启动GDS时设置了多线程，也并不会加速单个导入事务。未做过人为事务处理时，一条INSERT语句就是一个导入事务。综上，多线程的使用场景如下：多表并发导入时，采用多线程充分利用资源及提升并发导入效率。对数据量大的某一事实表的导入进行提速。将该事实表对应的数据拆分为多个数据文件，通过多外表同时入库的方式实现多线程并发导入。注意需确保每个外表所能读取的数据文件不重复。

数据仓库服务 GaussDB(DWS) 使用GDS从远端服务器导入数据

云服务器内容精选

使用GDS从远端服务器导入数据

7*24

备案

专业服务

退订

建议反馈

售前咨询热线