华为云用户手册

数据仓库服务 GAUSSDB(DWS)-使用CDM迁移数据到GaussDB(DWS)

使用 CDM 迁移数据到 GaussDB (DWS) 使用云数据迁移服务（Cloud Data Migration，简称CDM），可以将其他数据源（例如MySQL）的数据迁移到GaussDB(DWS) 集群的数据库中。 CDM提供同构/异构数据源之间批量数据迁移的功能，帮助用户实现从多种类型的数据源迁移数据到GaussDB(DWS)。 CDM在迁移数据到GaussDB(DWS)时，采用的是COPY方式和GDS并行导入方式。使用CDM迁移数据到GaussDB(DWS)的典型场景，请参见云数据迁移服务（简称CDM）的如下章节：入门：该入门场景为使用CDM迁移本地MySQL数据库到GaussDB(DWS) 图1 使用CDM迁移数据到GaussDB(DWS) 父主题：整库迁移

数据仓库服务 GAUSSDB(DWS) 整库迁移
数据仓库服务 GAUSSDB(DWS)-执行导入数据:操作步骤

操作步骤在GaussDB(DWS)数据库中，创建目标表，用于存储从OBS导入的数据。目标表的表结构和OBS上将要导入的数据源文件的字段要保持一一对应，即字段个数、字段类型要一致。并且目标表和创建的外表的表结构也要保持一致，字段名称可以不一样。（可选）如果导入表存在索引，在数据导入过程中，将增量更新索引信息，影响数据导入性能。建议在执行数据导入前，先删除相关表的索引。在数据导入完成后，再重新创建索引。执行数据导入。 1 INSERT INTO [目标表名] SELECT * FROM [foreign table 表名]; 如果出现以下类似信息，说明数据导入成功。请查询错误信息表，查看是否存在数据格式错误，详细操作请参见处理导入错误。 1 INSERT 0 20 如果出现数据加载错误，请参见处理导入错误，并重新执行数据导入。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-执行导入数据:示例

示例创建一个名为product_info的目标表，示例如下： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 DROP TABLE IF EXISTS product_info; CREATE TABLE product_info ( product_price integer not null, product_id char(30) not null, product_time date , product_level char(10) , product_name varchar(200) , product_type1 varchar(20) , product_type2 char(10) , product_monthly_sales_cnt integer , product_comment_time date , product_comment_num integer , product_comment_content varchar(200) ) with ( orientation = column, compression=middle ) DISTRIBUTE BY HASH (product_id); 执行以下命令将外表product_info_ext的数据导入到目标表product_info中： 1 INSERT INTO product_info SELECT * FROM product_info_ext;

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-执行导入数据:背景信息

背景信息在执行数据导入前，您可以参考以下优秀实践方法进行合理的设计部署，最大化的使用系统资源，以提高数据导入性能。 OBS的数据导入性能，多数场景受限于网络的并发访问速率，因此在OBS服务器上最好部署多个桶，使用多桶并发导入，提高DN数据传输利用率。并发导入场景，与单表导入相似，至少应保证I/O性能大于网络最大速率。配置GUC参数“raise_errors_if_no_files”、“partition_mem_batch”和“partition_max_cache_size”，设置导入时是否区分“导入文件记录数为空”和“导入文件不存在”、导入时的缓存个数以及数据缓存区大小。如果导入表存在索引，在数据导入过程中，将增量更新索引信息，影响数据导入性能。建议在执行数据导入前，先删除相关表的索引。在数据导入完成后，再重新创建索引。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-创建外表:创建外表

创建外表创建外表的语法格式如下。 1 2 3 4 5 6 7 8 9 10 CREATE FOREIGN TABLE [ IF NOT EXISTS ] table_name ( [ { column_name type_name [ { [CONSTRAINT constraint_name] NULL | [CONSTRAINT constraint_name] NOT NULL | column_constraint [...]} ] | table_constraint [, ...]} [, ...] ] ) SERVER dfs_server OPTIONS ( { option_name ' value ' } [, ...] ) DISTRIBUTE BY {ROUNDROBIN | REPLICATION} [ PARTITION BY ( column_name ) [ AUTOMAPPED ] ] ; 例如，创建一个名为“product_info_ext_obs”的外表，对语法中的参数按如下描述进行设置： table_name 外表的表名。表字段定义 column_name：外表中的字段名。 type_name：字段的数据类型。多个字段用“,”隔开。外表的字段个数和字段类型，需要与OBS上保存的数据完全一致。 SERVER dfs_server 外表的外部服务器名称，这个server必须存在。外表通过设置外部服务器连接OBS读取数据。此处应填写为参照创建外部服务器创建的外部服务器名称。 OPTIONS参数用于指定外表数据的各类参数，关键参数如下所示。 “format”：表示对应的OBS服务上的文件格式，支持“orc”、“carbondata”和“parquet”格式。 “foldername”：必选参数。数据源文件的OBS路径，此处仅需要填写“/桶名/文件夹目录层级/”。可以先通过OBS上的数据准备中的2获取数据源文件的完整的OBS路径，该路径为OBS服务的终端节点（Endpoint）。 “totalrows”：可选参数。该参数不是导入的总行数。由于OBS上文件可能很多，执行analyze可能会很慢，通过“totalrows”参数，让用户来设置一个预估的值，使优化器能通过这个值做大小表的估计。一般预估值与实际值的数量级差不多时，查询效率较高。 “encoding”：外表中数据源文件的编码格式名称，缺省为utf8。对于OBS外表此参数为必选项。 DISTRIBUTE BY：这个子句是必须的，当前支持ROUNDROBIN和REPLICATION分布方式。缺省为ROUNDROBIN分布方式。 ROUNDROBIN分布方式表示外表在从数据源读取数据时，GaussDB(DWS)集群每一个节点随机读取一部分数据，并组成完整数据。 REPLICATION分布方式表示外表在从数据源读取数据时，GaussDB(DWS)集群选取一个节点读取全部数据。因为每个数据节点都有完整的表数据。语法中的其他参数其他参数均为可选参数，用户可以根据自己的需求进行设置，在本例中不需要设置。根据以上信息，创建外表命令如下所示：建立不包含分区列的OBS外表，表关联的外部服务器为obs_server，表对应的OBS服务上的文件格式为‘orc’，OBS上的数据存储路径为'/mybucket/demo.db/product_info_orc/'。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 DROP FOREIGN TABLE IF EXISTS product_info_ext_obs; CREATE FOREIGN TABLE product_info_ext_obs ( product_price integer not null, product_id char(30) not null, product_time date , product_level char(10) , product_name varchar(200) , product_type1 varchar(20) , product_type2 char(10) , product_monthly_sales_cnt integer , product_comment_time date , product_comment_num integer , product_comment_content varchar(200) ) SERVER obs_server OPTIONS ( format 'orc', foldername '/mybucket/demo.db/product_info_orc/', encoding 'utf8', totalrows '10' ) DISTRIBUTE BY ROUNDROBIN; 建立包含分区列的OBS外表，product_info_ext_obs外表使用product_manufacturer字段作为分区键，obs/mybucket/demo.db/product_info_orc/路径下有如下分区目录：分区目录1：product_manufacturer=10001 分区目录2：product_manufacturer=10010 分区目录3：product_manufacturer=10086 ... 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 DROP FOREIGN TABLE IF EXISTS product_info_ext_obs; CREATE FOREIGN TABLE product_info_ext_obs ( product_price integer not null, product_id char(30) not null, product_time date , product_level char(10) , product_name varchar(200) , product_type1 varchar(20) , product_type2 char(10) , product_monthly_sales_cnt integer , product_comment_time date , product_comment_num integer , product_comment_content varchar(200) , product_manufacturer integer ) SERVER obs_server OPTIONS ( format 'orc', foldername '/mybucket/demo.db/product_info_orc/', encoding 'utf8', totalrows '10' ) DISTRIBUTE BY ROUNDROBIN PARTITION BY (product_manufacturer) AUTOMAPPED;

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-创建外部服务器:手动创建外部服务器

手动创建外部服务器使用数据库管理员通过GaussDB(DWS)提供的数据库客户端连接默认数据库postgres。例如：通过gsql客户端登录数据库的用户可以使用以下两种方法中的一种进行连接：可以通过以下两种方法中的一种进行连接：如果已经登录了gsql客户端，可以执行以下命令切换数据库和用户： 1 \c postgres dbadmin; 根据提示输入密码。如果尚未登录gsql客户端，或者已经登录了gsql客户端执行\q退出gsql后，执行以下命令重新进行连接： 1 gsql -d postgres -h 192.168.2.30 -U dbadmin -p 8000 -W password -r 执行以下命令查询自动创建的外部服务器的信息： 1 SELECT * FROM pg_foreign_server; 返回结果如下： 1 2 3 4 5 srvname | srvowner | srvfdw | srvtype | srvversion | srvacl | srvoptions --------------------------------------------------+----------+--------+---------+------------+--------+--------------------------------------------------------------------------------------------------------------------- gsmpp_server | 10 | 13673 | | | | hdfs_server_8f79ada0_d998_4026_9020_80d6de2692ca | 16476 | 13685 | | | | {"address=192.168.1.245:25000,192.168.1.218:25000",hdfscfgpath=/ MRS /8f79ada0-d998-4026-9020-80d6de2692ca,type=hdfs} (2 rows) 查询结果中，每一行代表一个外部服务器的信息。与MRS数据源连接相关联的外部服务器包含以下信息： srvname值包含“hdfs_server”字样以及MRS集群的ID，此ID与MRS管理控制台的集群列表MRS ID相同。 srvoptions字段中的address参数为MRS集群的主备节点的IP地址及端口。您可以根据上述信息找到您所要的外部服务器，并记录下它的srvname和srvoptions的值。切换为即将创建外部服务器的用户去连接其对应的数据库。在本示例中，执行以下命令，使用创建用户和数据库并授予外表权限中创建的普通用户dbuser连接其创建的数据库mydatabase： 1 \c mydatabase dbuser; 创建外部服务器。创建外部服务器的详细语法，请参见CREATE SERVER。示例如下： 1 2 3 4 5 6 7 CREATE SERVER hdfs_server_8f79ada0_d998_4026_9020_80d6de2692cahdfs_server FOREIGN DATA WRAPPER HDFS_FDW OPTIONS ( address '192.168.1.245:25000,192.168.1.218:25000', hdfscfgpath '/MRS/8f79ada0-d998-4026-9020-80d6de2692ca', type 'hdfs' ); 以下为必选参数的说明：外部服务器名称允许用户自定义名字。在本例中，指定为前面的步骤2中记录下来的srvname字段的值，如'hdfs_server_8f79ada0_d998_4026_9020_80d6de2692ca'。不同的数据库之间资源是隔离的，因此在不同的数据库中外部服务器名称可以相同。 FOREIGN DATA WRAPPER 只能指定为HDFS_FDW，它在数据库中已经存在。 OPTIONS参数以下参数请分别指定为步骤2中记录下来的srvoptions中的参数值。 address 指定HDFS集群的主备节点所在的IP地址以及端口。 hdfscfgpath 指定HDFS集群配置文件路径。该参数仅支持type为HDFS时设置。只能设置一个路径。 type 取值为'hdfs'，表示HDFS_FDW连接的是HDFS。查看外部服务器： 1 SELECT * FROM pg_foreign_server WHERE srvname='hdfs_server_8f79ada0_d998_4026_9020_80d6de2692ca'; 返回结果如下所示，表示已经创建成功： 1 2 3 4 srvname | srvowner | srvfdw | srvtype | srvversion | srvacl | srvoptions --------------------------------------------------+----------+--------+---------+------------+--------+--------------------------------------------------------------------------------------------------------------------- hdfs_server_8f79ada0_d998_4026_9020_80d6de2692ca | 16476 | 13685 | | | | {"address=192.168.1.245:25000,192.168.1.218:25000",hdfscfgpath=/MRS/8f79ada0-d998-4026-9020-80d6de2692ca,type=hdfs} (1 row)

数据仓库服务 GAUSSDB(DWS) 导出ORC和PARQUET数据到MRS
数据仓库服务 GAUSSDB(DWS)-创建外部服务器:创建用户和数据库并授予外表权限

创建用户和数据库并授予外表权限以下示例，是新建一个普通用户dbuser并创建一个数据库mydatabase，然后使用管理员用户授予dbuser外表权限。使用数据库管理员通过GaussDB(DWS)提供的数据库客户端连接默认数据库gaussdb。例如，使用gsql客户端的用户通过如下语句连接数据库： 1 gsql -d gaussdb -h 192.168.2.30 -U dbadmin -p 8000 -W password -r 新建一个普通用户，并用它创建一个数据库。新建一个具有创建数据库权限的用户dbuser： 1 CREATE USER dbuser WITH CREATEDB PASSWORD 'password'; 切换为新建的用户： 1 SET ROLE dbuser PASSWORD 'password'; 执行以下命令创建数据库： 1 CREATE DATABASE mydatabase; 查询数据库： 1 SELECT * FROM pg_database; 返回结果中有mydatabase的信息表示创建成功： 1 2 3 4 5 6 7 8 9 10 datname | datdba | encoding | datcollate | datctype | datistemplate | datallowconn | datconnlimit | datlastsysoid | datfrozenxid | dattablespace | datcompatibility | datacl ------------+--------+----------+------------+----------+---------------+--------------+--------------+---------------+--------------+---------------+------------------+-------------------------------------- -------------- template1 | 10 | 0 | C | C | t | t | -1 | 14146 | 1351 | 1663 | ORA | {=c/Ruby,Ruby=CTc/Ruby} template0 | 10 | 0 | C | C | t | f | -1 | 14146 | 1350 | 1663 | ORA | {=c/Ruby,Ruby=CTc/Ruby} gaussdb | 10 | 0 | C | C | f | t | -1 | 14146 | 1352 | 1663 | ORA | {=Tc/Ruby,Ruby=CTc/Ruby,chaojun=C/Ruby,hu obinru=C/Ruby} mydatabase | 17000 | 0 | C | C | f | t | -1 | 14146 | 1351 | 1663 | ORA | (4 rows) 使用管理员用户给普通用户赋予创建外部服务器的权限和使用外表的权限。使用数据库管理员用户通过数据库客户端连接新建的数据库。例如，使用gsql客户端的用户可以直接使用如下语句切换为管理员用户去连接新建的数据库： 1 \c mydatabase dbadmin; 根据提示输入用户密码。注意，必须先使用管理员用户连接到将要创建外部服务器和使用外表的数据库，再对普通用户进行授权。默认只有系统管理员才可以创建外部服务器，普通用户需要授权才可以创建，执行以下命令授权： 1 GRANT ALL ON FOREIGN DATA WRAPPER hdfs_fdw TO dbuser; 其中FOREIGN DATA WRAPPER的名字只能是hdfs_fdw，dbuser为创建SERVER的用户名。执行以下命令赋予用户使用外表的权限： 1 ALTER USER dbuser USEFT; 查看用户： 1 2 3 4 5 6 7 8 9 10 11 12 13 SELECT r.rolname, r.rolsuper, r.rolinherit, r.rolcreaterole, r.rolcreatedb, r.rolcanlogin, r.rolconnlimit, r.rolvalidbegin, r.rolvaliduntil, ARRAY(SELECT b.rolname FROM pg_catalog.pg_auth_members m JOIN pg_catalog.pg_roles b ON (m.roleid = b.oid) WHERE m.member = r.oid) as memberof , r.rolreplication , r.rolauditadmin , r.rolsystemadmin , r.roluseft FROM pg_catalog.pg_roles r ORDER BY 1; 返回结果中，dbuser的信息中包含了UseFT权限，表示授权成功： 1 2 3 4 5 rolname | rolsuper | rolinherit | rolcreaterole | rolcreatedb | rolcanlogin | rolconnlimit | rolvalidbegin | rolvaliduntil | memberof | rolreplication | rolauditadmin | rolsystemadmin | roluseft -----------+----------+------------+---------------+-------------+-------------+--------------+---------------+---------------+----------+----------------+---------------+----------------+---------- dbuser | f | t | f | t | t | -1 | | | {} | f | f | f | t lily | f | t | f | f | t | -1 | | | {} | f | f | f | f Ruby | t | t | t | t | t | -1 | | | {} | t | t | t | t

数据仓库服务 GAUSSDB(DWS) 导出ORC和PARQUET数据到MRS
数据仓库服务 GAUSSDB(DWS)-迁移数据到GaussDB(DWS)

迁移数据到GaussDB(DWS) GaussDB(DWS)提供了灵活的数据入库方式，可以将多种数据源的数据导入到GaussDB(DWS)中，如图1所示。各导入方式具有不同的特点，如表1所示，用户可以根据其特点自行选择。建议用户配合云数据迁移（Cloud Data Migration，简称CDM）和数据治理中心（ DataArts Studio ）一起使用，CDM用于批量数据迁移，DataArts Studio可以对整个ETL过程进行编排调度，同时提供可视化的开发环境。图1 数据迁移示意图 CDM、OBS、MRS、 DLI 为云服务。 GDS、DSC、gs_restore、gs_dump为内部工具。表1 数据导入方式说明数据导入方式数据源说明优势从OBS并行导入数据 OBS 支持将存储在OBS上的TXT、 CS V、ORC及CARBONDATA格式的数据并行导入到GaussDB(DWS)，支持导入后查询数据，也支持远程读OBS上的数据。 GaussDB(DWS)优先推荐的导入方式。并行拉取方式，性能好，横向扩展。使用GDS从远端服务器导入数据 Servers（即远端服务器）使用GaussDB(DWS)提供的GDS工具，利用多DN并行的方式，将数据从远端服务器导入到GaussDB(DWS)。这种方式导入效率高，适用于大批量数据入库。从MRS导入数据到集群 MRS（HDFS）配置一个GaussDB(DWS)集群连接到一个MRS集群，然后将数据从MRS的HDFS中读取到GaussDB(DWS)。并行拉取方式，性能好，横向扩展。基于GDS的跨集群互联互通 - 通过GDS进行数据中转，实现多个集群之间的数据同步。适用于多套GaussDB(DWS)集群之间的数据同步。使用开源Kettle导入数据 MySQL、Oracle、BigQuery、Redshift等支持使用开源Kettle工具配合dws-client插件完成数据入库。适用于使用开源Kettle工具入库场景，数据入库速度在22000条/秒左右。使用gsql元命令\COPY导入数据本地文件与直接使用SQL语句COPY不同，该命令读取/写入的文件只能是gsql客户端所在机器上的本地文件。操作简单，适用于小批量数据入库。使用COPY FROM STDIN导入数据其他文件或数据库使用Java语言开发应用程序时，通过调用JDBC驱动的CopyManager接口，从文件或其他数据库向GaussDB(DWS)写入数据。从其他数据库直接写入GaussDB(DWS)的方式，具有业务数据无需落地成文件的优势。 Kafka实时入库到GaussDB(DWS) Kafka 使用DLI Flink作业实现Kafka实时入库GaussDB(DWS)。适用Kafka实时入库。使用CDM迁移数据到GaussDB(DWS) 数据库、NoSQL、文件系统、大数据平台 CDM提供同构/异构数据源之间批量数据迁移的功能，帮助用户实现从多种类型的数据源迁移数据到GaussDB(DWS)。CDM在迁移数据到GaussDB(DWS)时，采用的是COPY方式和GDS并行导入方式。数据源丰富，操作简单。使用DSC工具迁移SQL脚本数据库、NoSQL、文件系统、大数据平台请参考第三方ETL工具的相关文档。 GaussDB(DWS)提供了DSC工具，可以将Teradata/Oracle脚本迁移到GaussDB(DWS)。通过OBS中转，数据源丰富，数据转换能力强。使用gs_dump和gs_dumpall命令导出元数据纯文本格式自定义归档格式目录归档格式 tar归档格式 gs_dump支持导出单个数据库或其内的对象，而gs_dumpall支持导出集群中所有数据库或各库的公共全局对象。通过导入工具将导出的元数据信息导入至需要的数据库，可以完成数据库信息的迁移。适用于元数据迁移。使用gs_restore导入数据 sql/tmp/tar文件格式在数据库迁移场景下，支持使用gs_restore工具将事先使用gs_dump工具导出的文件格式，重新导入GaussDB(DWS)集群，实现表定义、数据库对象定义等元数据的导入。导入数据主要包括以下内容：所有数据库对象定义。单个数据库对象定义。单个Schema定义。单张表定义。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-创建OBS外表:示例

示例在GaussDB(DWS)数据库中，创建一个外表。参数信息如下所示：数据格式参数访问密钥（AK和SK）用户获取OBS访问协议对应的AK值（access_key）。用户获取OBS访问协议对应的SK值（secret_access_key）。请根据用户实际获取的access_key和secret_access_key的密钥替换示例中的对应内容。设置数据格式参数数据源文件格式（format）为“CSV”。编码格式（encoding）为“UTF-8”。是否使用加密（encrypt），默认为 “off”。字段分隔符（delimiter）为“,”。引号字符（quote）使用默认值双引号。 null（数据文件中空值的表示）为“一个没有引号的空字符串”。 header（指定导出数据文件是否包含标题行）为“false”，当数据文件第一行不是标题行（即表头），不需要设置。 OBS导出数据时不支持该参数为true，使用缺省值false。设置导入时的容错性参数 PER NODE REJECT LIMIT 'value' 为“unlimited”，即接受导入过程中所有数据格式错误。 LOG INTO error_table_name指定为“product_info_err”，将数据导入过程中出现的数据格式错误信息写入表“product_info_err”。 fill_missing_fields为“true”，即当数据加载时，若数据源文件中一行数据的最后一个字段缺失，则把最后一个字段的值设置为NULL，不报错。 ignore_extra_data为“true”，当数据加载时，若数据源文件比外表定义列数多，则忽略行尾多出来的列，不报错。根据以上信息，创建的外表如下所示：认证用的AK和SK硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 DROP FOREIGN TABLE product_info_ext; CREATE FOREIGN TABLE product_info_ext ( product_price integer not null, product_id char(30) not null, product_time date , product_level char(10) , product_name varchar(200) , product_type1 varchar(20) , product_type2 char(10) , product_monthly_sales_cnt integer , product_comment_time date , product_comment_num integer , product_comment_content varchar(200) ) SERVER gsmpp_server OPTIONS( LOCATION 'obs://mybucket/input_data/product_info | obs://mybucket02/input_data/product_info', FORMAT 'CSV' , DELIMITER ',', encoding 'utf8', header 'false', AC CES S_KEY 'access_key_value_to_be_replaced', SECRET_ACCESS_KEY 'secret_access_key_value_to_be_replaced', fill_missing_fields 'true', ignore_extra_data 'true' ) READ ONLY LOG INTO product_info_err PER NODE REJECT LIMIT 'unlimited'; 返回如下信息表示创建成功： 1 CREATE FOREIGN TABLE

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-创建OBS外表:操作步骤

操作步骤根据上传数据到OBS中规划的路径，由此确定创建外表时使用的参数location的值。用户获取OBS访问协议对应的AK值和SK值。获取访问密钥，请登录管理控制台，单击右上角的用户名并选择菜单“我的凭证”，然后在左侧导航树单击“访问密钥”。在访问密钥页面，可以查看已有的访问密钥ID（即AK），如果要同时获取AK和SK，可以单击“新增访问密钥”创建并下载访问密钥。梳理待导入数据的格式信息，确定创建外表时使用的数据格式参数的值。需要收集的主要数据源格式信息如下： format：外表中数据源文件的格式。OBS外表导入支持CSV、TEXT格式。缺省值为TEXT。 header：指定导出数据文件是否包含标题行，header只能用于CSV格式的文件中。 delimiter：指定数据文件行数据的字段分隔符，不指定则使用默认分隔符。外表可以识别的更多参数，详细使用请参见数据格式参数。规划并行导入容错性，以控制导入过程中处理错误的方式。 fill_missing_fields：数据入库时，数据源文件中某行的最后一个字段缺失时，请选择是直接将字段设为Null，还是在错误表中报错提示。取值范围：true/on，false/off。参数为true/on，当数据导入时，若数据源文件中一行数据的最后一个字段缺失，则把最后一个字段的值设置为NULL，不报错。参数为false/off，如果最后一个字段缺失会显示如下错误信息。 missing data for column "tt" 缺省值：false/off。 ignore_extra_data：数据源文件中的字段比外表定义列数多时，请选择是忽略多出的列，还是在错误表中报错提示。取值范围：true/on、false/off。参数为true/on，若数据源文件比外表定义列数多，则忽略行尾多出来的列。参数为false/off，若数据源文件比外表定义列数多，会显示如下错误信息。 1 extra data after last expected column 缺省值：false/off。 per node reject limit：本次数据导入过程中每个DN实例上允许出现的数据格式错误的数量。如果有一个DN实例上录入错误表中的错误数量超过设定值时，本次导入失败，报错退出。可以选择不做限制，也可以根据所能容忍的错误数量选择一个上限值。 compatible_illegal_chars：导入时遇到非法字符，选择如何处理。是将非法字符按照转换规则转换后入库，还是报错中止导入。取值范围：true/on，false/off。参数为true/on，则导入时遇到非法字符进行容错处理，非法字符转换后入库，不报错，不中断导入。参数为false/off，导入时遇到非法字符进行报错，中断导入。缺省值：false/off。非法字符容错转换规则如下：对于'\0'，容错后转换为空格。对于其他非法字符，容错后转换为问号。对非法字符进行容错转换时，如遇NULL、DELIMITER、QUOTE、ESCAPE也设置成了空格或问号，GaussDB(DWS)会通过如“illegal chars conversion may confuse COPY escape 0x20”等报错信息提示用户修改可能引起混淆的参数以避免导入错误。 error_table_name：用于记录数据格式错误信息的错误表表名。并行导入结束后查询此错误信息表，能够获取详细的错误信息。更多参数，详细使用请参见容错性参数。根据前面步骤确定的参数，创建OBS外表。外表的创建语法以及详细使用，请参考CREATE FOREIGN TABLE (OBS导入导出)。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-基于GDS的跨集群互联互通:操作步骤

操作步骤假设远端集群的待同步表名称是tbl_remote，用于数据同步的用户是user_remote，该用户须对表tbl_remote有访问权限；假设本地集群的待同步表名称是tbl_local。创建server。 CREATE SERVER server_remote FOREIGN DATA WRAPPER GC_FDW OPTIONS( address '192.168.178.207:8000', dbname 'db_remote', username 'user_remote', password 'xxxxxxxx', syncsrv 'gsfs://192.168.178.129:5000|gsfs://192.168.178.129:5000' ); server_remote为server名称，供互联互通外表使用。 address为远端集群CN的IP地址和端口，仅允许填写一个地址。 dbname为远端集群的数据库名。 username为连接远端集群使用的用户名，注意该用户不能为系统管理员。 password为连接远端集群使用的用户名的密码。 syncsrv为GDS Server的IP地址和端口，如果有多个地址使用|分割，与GDS外表的location类似。 GaussDB(DWS)会对syncsrv所设置的GDS地址进行网络连接测试：只能判断本地执行集群与GDS的网络情况，无法判断远端集群与GDS的网络情况，需要注意报错提示。在移除不可用GDS后，从中选择不会导致业务hang的、数目适当的GDS进行数据同步。创建互联互通外表。 CREATE FOREIGN TABLE ft_tbl( col_1 type_name, col_2 type_name, … ) SERVER server_remote OPTIONS ( schema_name 'schema_remote', table_name 'tbl_remote', encoding 'utf8' ); schema_name为远端集群表所属schema，如果该option缺省，则schema_name预设为该外表所在的schema。 table_name为远端集群表名，如果该option缺省，则table_name预设为该外表的表名。 encoding为远端集群的编码，如果该option缺省，则编码使用本地集群数据库的默认编码。选项schema_name、table_name大小写敏感，必须与远端schema、table的名字大小写保持一致。互联互通外表的列不允许带任何约束。互联互通外表的列名、列类型必须与远端集群的表tbl_remote的列名和列类型完全一致。 SERVER须设置为步骤1中新建的server，必须包含syncsrv属性。使用互联互通外表进行数据同步。本地集群是目标集群时，发起数据同步业务：全列全量数据同步： 1 INSERT INTO tbl_local SELECT * FROM ft_tbl; 全列过滤条件数据同步： 1 INSERT INTO tbl_local SELECT * FROM ft_tbl WHERE col_2 = XX; 部分列全量数据同步： 1 INSERT INTO tbl_local (col_1) SELECT col_1 FROM ft_tbl; 部分列过滤条件数据同步： 1 INSERT INTO tbl_local (col_1) SELECT col_1 FROM ft_tbl WHERE col_2 = XX; 本地集群是源集群时，发起数据同步业务：单表数据同步： 1 INSERT INTO ft_tbl SELECT * FROM tbl_local; join结果集数据同步： 1 INSERT INTO ft_tbl SELECT * FROM tbl_local1 join tbl_local2 ON XXX; 如遇到报错连接失败，请检查server的信息确认两个集群是否已经相互连通。如遇到报错GDS连接失败，请检查syncsrv指定的GDS Server是否都已经启动，且与两个集群所有节点可以网络连通。如遇到报错表不存在，请检查外表的option信息是否正确。如遇到报错列不存在，请检查外表的列名是否与源表一致。如遇到报错列重复定义，请检查是否相应列名超长，若超长建议使用AS别名精简。如遇到报错无法解析列类型，请检查语句中是否有列上表达式。如遇到报错列信息不匹配，请检查外表的列信息是否与远端集群对应表的列信息是否一致。如遇到报错语法不支持，请检查是否使用了Join、distinct、排序等复杂用法。如遇到乱码，请检查两端数据库的实际编码是否一致。当本地集群是源集群时，存在极小的概率出现数据成功同步到远端集群，但是本地集群返回执行失败的情况，针对这种情况建议校验同步数据记录数。当本地集群是源集群时，通过事务块、子事务等控制的数据同步，需要总事务提交后才能查询到数据同步结果。删除互联互通外表。 DROP FOREIGN TABLE ft_tbl;

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-基于GDS的跨集群互联互通:使用场景

使用场景将数据从一个集群同步到另外一个集群，支持全量数据同步、过滤条件数据同步。目前互联互通仅支持以下使用方式，除以下语句外，其他类型的语法均不支持。 INSERT INTO 内表 SELECT ... FROM 互联互通外表1 [WHERE]; INSERT INTO 互联互通表 SELECT * FROM 内表1 [JOIN 内表2 | WHERE]; SELECT ... FROM 互联互通表;

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-基于GDS的跨集群互联互通:注意事项

注意事项创建的互联互通外表与其对应的远端表的列名和类型名要完全一致，且远端表的类型为行存表或列存表。执行同步语句时，要确保本地集群、远端集群的待同步表已存在。使用期间，两个集群的状态应为Normal。两个集群都需要具备基于GDS的跨集群互联互通功能。建议两端集群的数据库编码保持一致，否则可能出现报错或者收到的数据为乱码。两端集群所指定的数据库兼容类型要保持一致，否则可能报错或乱码。确保执行数据同步的相关用户对待同步表有相应的访问权限。互联互通外表只能用于跨集群数据同步场景，其他场景可能出错或无效。互联互通外表不支持复杂的列上表达式，不支持复杂语法，包括join、排序、游标、with、集合等。不下推的SQL语句无法使用本特性进行数据同步，否则会报错。不支持EXPLAIN计划、逻辑集群。不支持除了simple模式以外的JDBC模式。当本地集群同步数据到远端集群时，只支持内表查询。 Foreign Server的syncsrv选项指定的GDS不支持SSL模式。数据同步结束时只校验数据行数，不校验数据内容。业务最大并发数不能大于GDS启动参数-t的一半，同时也不能大于max_active_statements，否则可能会导致业务超时失败。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-基于GDS的跨集群互联互通:使用前准备

使用前准备配置两个集群互连。规划部署GDS服务器，确保所有的GDS服务器可以和上面配置的两个集群所有节点网络连通，即GDS服务器的安全组入方向要放通对应的GDS端口（例如5000）和DWS端口（默认8000）。部署GDS请参考安装配置和启动GDS。启动GDS时，可指定任意目录作为数据中转的目录，例如/opt，启动命令示例如下： /opt/gds/bin/gds -d /opt -p 192.168.0.2:5000 -H 192.168.0.1/24 -l /opt/gds/bin/gds_log.txt -D -t 2

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-执行导入数据:操作步骤

操作步骤在GaussDB(DWS)中创建目标表，用于存储导入的数据。建表语句请参见CREATE TABLE。（可选）若导入表存在索引，在数据导入过程中，将增量更新索引信息，影响数据导入性能。建议在执行数据导入前，先删除相关表的索引，但是如果不能保证数据唯一性不建议删除唯一索引。在数据导入完成后，再重新创建索引。假定在导入表“product_info”上的“product_id”字段上存在普通索引“product_idx”。在执行数据导入前，请先删除相关索引。 1 DROP INDEX product_idx; 在数据导入完成后，重建索引。 1 CREATE INDEX product_idx ON product_info(product_id); 执行数据导入。 1 INSERT INTO [目标表名] SELECT * FROM [foreign table 表名]; 如果出现以下类似信息，说明数据导入成功。请查询错误信息表，查看是否存在数据格式错误，详细操作请参见处理导入错误。 INSERT 0 9 如果出现数据加载错误，请参见处理导入错误，并重新执行数据导入。如果执行过程中出现数据加载错误，则数据全部导入失败，没有数据导入至目标表中。编写批处理任务脚本，实现并发批量导入数据。并发量视机器资源使用情况而定。可通过几个表测试，监控资源利用率，根据结果提高或减少并发量。常用资源监控命令有：内存和CPU监控top命令，IO监控命令iostat，网络监控命令sar等。相关案例请参见多线程导入。在资源许可的情况下，多台GDS服务器并发导入会很大程度上提高数据导入效率。相关案例请参见多数据服务器并行导入。对于高并发的GDS导入场景，为了保持GDS和DN间的数据连接稳定，可以将GDS服务器环境和DN所在环境的TCP Keepalive检测时间增长（推荐增长至5分钟）。调整集群环境的TCP Keepalive参数会影响故障检测的响应时间。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-执行导入数据:任务示例

任务示例创建一个名为reasons的目标表。 1 2 3 4 5 6 7 CREATE TABLE reasons ( r_reason_sk integer not null, r_reason_id char(16) not null, r_reason_desc char(100) ) DISTRIBUTE BY HASH (r_reason_sk); 在执行数据导入前，先删除相关表的索引。假定在导入表“reasons”上的“r_reason_id”字段上存在普通索引“reasons_idx”。在执行数据导入前，请先删除相关索引。 1 DROP INDEX reasons_idx; 将数据源文件中的数据通过外表“foreign_tpcds_reasons”导入到表“reasons”中。 1 INSERT INTO reasons SELECT * FROM foreign_tpcds_reasons ; 在数据导入完成后，再重新创建索引。 1 CREATE INDEX reasons_idx ON reasons(r_reasons_id);

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-导出所有数据库:示例

示例示例一：执行gs_dumpall，导出所有数据库全量信息（dbadmin用户为管理员用户），导出文件为文本格式。执行命令后，会有很长的打印信息，最终出现total time即代表执行成功。示例中将不体现中间的打印信息。 gs_dumpall -W password -U dbadmin -f /home/dbadmin/backup/MPPDB_backup.sql -p 8000 -h 10.10.10.100 gs_dumpall[port=''][2017-07-21 15:57:31]: dumpall operation successful gs_dumpall[port=''][2017-07-21 15:57:31]: total time: 9627 ms 示例二：执行gs_dumpall，仅导出所有数据库定义（dbadmin用户为管理员用户），导出文件为文本格式。执行命令后，会有很长的打印信息，最终出现total time即代表执行成功。示例中将不体现中间的打印信息。 gs_dumpall -W password -U dbadmin -f /home/dbadmin/backup/MPPDB_backup.sql -p 8000 -h 10.10.10.100 -s gs_dumpall[port=''][2018-11-14 11:28:14]: dumpall operation successful gs_dumpall[port=''][2018-11-14 11:28:14]: total time: 4147 ms 示例三：执行gs_dumpall，仅导出所有数据库中数据，并对导出文件进行加密，导出文件为文本格式。执行命令后，会有很长的打印信息，最终出现total time即代表执行成功。示例中将不体现中间的打印信息。 gs_dumpall -W password -U dbadmin -f /home/dbadmin/backup/MPPDB_backup.sql -p 8000 -h 10.10.10.100 -a --with-encryption AES128 --with-key 1234567812345678 gs_dumpall[port=''][2018-11-14 11:32:26]: dumpall operation successful gs_dumpall[port=''][2018-11-14 11:23:26]: total time: 4147 ms

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-GDS导入示例:集群间不落地数据导入

集群间不落地数据导入启动GDS。（如果已经启动跳过此步骤） gds -d /***/gds_data/ -D -p GDS_IP:GDS_PORT -l /***/gds_log/aa.log -H 0/0 -t 10 -D 如果需要设置管道文件的超时时间，则使用--pipe-timeout参数设置。源数据库数据导出。登录目标数据库创建内表，并写入数据。 CREATE TABLE test_pipe( id integer not null, gender text not null, name text ); INSERT INTO test_pipe values(1,2,'11111111111111'); INSERT INTO test_pipe values(2,2,'11111111111111'); INSERT INTO test_pipe values(3,2,'11111111111111'); INSERT INTO test_pipe values(4,2,'11111111111111'); INSERT INTO test_pipe values(5,2,'11111111111111'); 创建只写外表。 CREATE FOREIGN TABLE foreign_test_pipe( id integer not null, age text not null, name text ) SERVER gsmpp_server OPTIONS (LOCATION 'gsfs://GDS_IP:GDS_PORT/', FORMAT 'text', DELIMITER ',', NULL '', EOL '0x0a' ,file_type 'pipe') WRITE ONLY; 导入语句，此时语句会阻塞。 INSERT INTO foreign_test_pipe SELECT * FROM test_pipe; 目标集群导入数据。创建内表。 CREATE TABLE test_pipe (id integer not null, gender text not null, name text); 创建只读外表。 CREATE FOREIGN TABLE foreign_test_pipe(like test_pipe) SERVER gsmpp_server OPTIONS (LOCATION 'gsfs://GDS_IP:GDS_PORT/', FORMAT 'text', DELIMITER ',', NULL '', EOL '0x0a' , file_type 'pipe', auto_create_pipe 'false'); 执行导入语句： INSERT INTO test_pipe SELECT * FROM foreign_test_pipe; 查看目标集群导入语句返回的结果： SELECT * FROM test_pipe; id | gender | name ----+-----+---------------- 3 | 2 | 11111111111111 6 | 2 | 11111111111111 7 | 2 | 11111111111111 1 | 2 | 11111111111111 2 | 2 | 11111111111111 4 | 2 | 11111111111111 5 | 2 | 11111111111111 8 | 2 | 11111111111111 9 | 2 | 11111111111111 (9 rows) GDS默认导出或者导入的管道文件命名规则为：“数据库名_模式名_外表名.pipe”，因此默认需要目标集群与源集群的数据库名及模式名保持一致。如果数据库或模式不一致，则可以在location的url中指定相同的管道文件。示例：只写外表指定管道名。 CREATE FOREIGN TABLE foreign_test_pipe(id integer not null, age text not null, name text) SERVER gsmpp_server OPTIONS (LOCATION 'gsfs://GDS_IP:GDS_PORT/foreign_test_pipe.pipe', FORMAT 'text', DELIMITER ',', NULL '', EOL '0x0a' ,file_type 'pipe') WRITE ONLY; 只读外表指定管道名。 CREATE FOREIGN TABLE foreign_test_pipe(like test_pipe) SERVER gsmpp_server OPTIONS (LOCATION 'gsfs://GDS_IP:GDS_PORT/foreign_test_pipe.pipe', FORMAT 'text', DELIMITER ',', NULL '', EOL '0x0a' ,file_type 'pipe',auto_create_pipe 'false');

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-GDS导入示例:多线程导入

多线程导入规划数据服务器与集群处于同一内网，数据服务器IP为192.168.0.90，导入的数据源文件格式为CSV，同时导入2个目标表。以root用户登录GDS数据服务器，创建数据文件存放目录“/input_data”，以及子目录“/input_data/import1/”和“/input_data/import2/”。 mkdir -p /input_data 将目标表tpcds.reasons1的数据源文件存放在数据服务器“/input_data/import1/”目录下，将目标表tpcds.reasons2的数据源文件存放在目录“/input_data/import2/”下。（可选）创建用户及其所属的用户组。此用户用于启动GDS。若该用户及所属用户组已存在，可跳过此步骤。 groupadd gdsgrp useradd -g gdsgrp gds_user 修改数据服务器上数据文件及数据文件目录“/input_data”的属主为gds_user。 chown -R gds_user:gdsgrp /input_data 以gds_user用户登录数据服务器上启动GDS。其中GDS安装路径为“/opt/bin/dws/gds”，数据文件存放在“/input_data/”目录下，数据服务器所在IP为192.168.0.90，GDS监听端口为5000，以后台方式运行，设定并发度为2，并设定递归文件目录。 /opt/bin/dws/gds/bin/gds -d /input_data -p 192.168.0.90:5000 -H 10.10.0.1/24 -D -t 2 -r 使用工具连接数据库。详见连接数据库。在数据库中创建导入的目标表tpcds.reasons1和tpcds.reasons2。 1 2 3 4 5 6 CREATE TABLE tpcds.reasons1 ( r_reason_sk integer not null, r_reason_id char(16) not null, r_reason_desc char(100) ) ; 1 2 3 4 5 6 CREATE TABLE tpcds.reasons2 ( r_reason_sk integer not null, r_reason_id char(16) not null, r_reason_desc char(100) ) ; 在数据库中创建外表tpcds.foreign_tpcds_reasons1和tpcds.foreign_tpcds_reasons2用于接收数据服务器上的数据。以下以外表tpcds.foreign_tpcds_reasons1为例，讲解设置的导入外表参数信息。其中设置的导入模式信息如下所示：导入模式为Normal模式。由于启动GDS时，设置的数据源文件存放目录为“/input_data/”，GDS监听端口为5000，实际存放数据源文件目录为“/input_data/import1/”，所以设置参数“location”为“gsfs://192.168.0.90:5000/import1/*”。设置的数据格式信息是根据导出时设置的详细数据格式参数信息指定的，参数设置如下所示：数据源文件格式（format）为CSV。编码格式（encoding）为UTF-8。字段分隔符（delimiter）为E'\x08'。引号字符（quote）为E'\x1b'。数据文件中空值（null）为没有引号的空字符串。逃逸字符（escape）默认和quote相同。数据文件是否包含标题行（header）为默认值false，即导入时数据文件第一行被识别为数据。设置的导入容错性如下所示：允许出现的数据格式错误个数（PER NODE REJECT LIMIT 'value'）为unlimited，即接受导入过程中所有数据格式错误。将数据导入过程中出现的数据格式错误信息（LOG INTO error_table_name）写入表err_tpcds_reasons1。当数据源文件中一行的最后一个字段缺失（fill_missing_fields）时，自动设置为NULL。根据以上信息，创建的外表tpcds.foreign_tpcds_reasons1如下所示： 1 2 3 4 5 6 CREATE FOREIGN TABLE tpcds.foreign_tpcds_reasons1 ( r_reason_sk integer not null, r_reason_id char(16) not null, r_reason_desc char(100) ) SERVER gsmpp_server OPTIONS (location 'gsfs://192.168.0.90:5000/import1/*', format 'CSV',mode 'Normal', encoding 'utf8', delimiter E'\x08', quote E'\x1b', null '',fill_missing_fields 'on')LOG INTO err_tpcds_reasons1 PER NODE REJECT LIMIT 'unlimited'; 参考以上设置，创建的外表tpcds.foreign_tpcds_reasons2如下所示： 1 2 3 4 5 6 CREATE FOREIGN TABLE tpcds.foreign_tpcds_reasons2 ( r_reason_sk integer not null, r_reason_id char(16) not null, r_reason_desc char(100) ) SERVER gsmpp_server OPTIONS (location 'gsfs://192.168.0.90:5000/import2/*', format 'CSV',mode 'Normal', encoding 'utf8', delimiter E'\x08', quote E'\x1b', null '',fill_missing_fields 'on')LOG INTO err_tpcds_reasons2 PER NODE REJECT LIMIT 'unlimited'; 通过外表tpcds.foreign_tpcds_reasons1和tpcds.foreign_tpcds_reasons2将数据分别导入tpcds.reasons1和tpcds.reasons2。 1 INSERT INTO tpcds.reasons1 SELECT * FROM tpcds.foreign_tpcds_reasons1; 1 INSERT INTO tpcds.reasons2 SELECT * FROM tpcds.foreign_tpcds_reasons2; 查询错误信息表err_tpcds_reasons1和err_tpcds_reasons2，处理数据导入错误。详细请参见处理导入错误。 1 2 SELECT * FROM err_tpcds_reasons1; SELECT * FROM err_tpcds_reasons2; 待数据导入完成后，以gds_user用户登录数据服务器，停止GDS。其中GDS进程号为128954。 ps -ef|grep gds gds_user 128954 1 0 15:03 ? 00:00:00 gds -d /input_data -p 192.168.0.90:5000 -D -t 2 -r gds_user 129003 118723 0 15:04 pts/0 00:00:00 grep gds kill -9 128954

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-GDS导入示例:多数据服务器并行导入

多数据服务器并行导入规划数据服务器与集群处于同一内网，数据服务器IP为192.168.0.90和192.168.0.91。数据源文件格式为CSV。以root用户登录每台GDS数据服务器，在两台数据服务器上，分别创建数据文件存放目录“/input_data”。以下以IP为192.168.0.90的数据服务器为例进行操作，剩余服务器上的操作与它一致。 mkdir -p /input_data （可选）创建用户及其所属的用户组。此用户用于启动GDS。若该类用户及所属用户组已存在，可跳过此步骤。 groupadd gdsgrp useradd -g gdsgrp gds_user 将准备好的CSV格式数据源文件均匀分发至相应数据服务器的“/input_data”目录中。修改每台数据服务器上数据文件及数据文件目录“/input_data”的属主为gds_user。以下以IP为192.168.0.90的数据服务器为例，进行操作。 chown -R gds_user:gdsgrp /input_data 以gds_user用户登录每台数据服务器上分别启动GDS。其中GDS安装路径为“/opt/bin/dws/gds”，数据文件存放在“/input_data/”目录下，数据服务器所在IP为192.168.0.90和192.168.0.91，GDS监听端口为5000，以后台方式运行。在IP为192.168.0.90的数据服务器上启动GDS。 /opt/bin/dws/gds/bin/gds -d /input_data -p 192.168.0.90:5000 -H 10.10.0.1/24 -D 在IP为192.168.0.91的数据服务器上启动GDS。 /opt/bin/dws/gds/bin/gds -d /input_data -p 192.168.0.91:5000 -H 10.10.0.1/24 -D 使用工具连接数据库。详见连接数据库。创建导入的目标表tpcds.reasons。 1 2 3 4 5 6 CREATE TABLE tpcds.reasons ( r_reason_sk integer not null, r_reason_id char(16) not null, r_reason_desc char(100) ); 创建外表tpcds.foreign_tpcds_reasons用于接收数据服务器上的数据。其中设置导入模式信息如下所示：导入模式为Normal模式。由于启动GDS时，设置的数据源文件存放目录为“/input_data”，GDS监听端口为5000，所以设置参数“location”为“gsfs://192.168.0.90:5000/* | gsfs://192.168.0.91:5000/*”。设置数据格式信息是根据导出时设置的详细数据格式参数信息指定的，参数设置如下所示：数据源文件格式（format）为CSV。编码格式（encoding）为UTF-8。字段分隔符（delimiter）为E'\x08'。引号字符（quote）为E'\x1b'。数据文件中空值（null）为没有引号的空字符串。逃逸字符（escape）默认和quote相同。数据文件是否包含标题行（header）为默认值false，即导入时数据文件第一行被识别为数据。设置导入容错性如下所示：允许出现的数据格式错误个数（PER NODE REJECT LIMIT 'value'）为unlimited，即接受导入过程中所有数据格式错误。将数据导入过程中出现的数据格式错误信息（LOG INTO error_table_name）写入表err_tpcds_reasons。根据以上信息，创建的外表如下所示： 1 2 3 4 5 6 7 CREATE FOREIGN TABLE tpcds.foreign_tpcds_reasons ( r_reason_sk integer not null, r_reason_id char(16) not null, r_reason_desc char(100) ) SERVER gsmpp_server OPTIONS (location 'gsfs://192.168.0.90:5000/* | gsfs://192.168.0.91:5000/*', format 'CSV',mode 'Normal', encoding 'utf8', delimiter E'\x08', quote E'\x1b', null '', fill_missing_fields 'false') LOG INTO err_tpcds_reasons PER NODE REJECT LIMIT 'unlimited'; 通过外表tpcds.foreign_tpcds_reasons，将数据导入目标表tpcds.reasons。 1 INSERT INTO tpcds.reasons SELECT * FROM tpcds.foreign_tpcds_reasons; 查询错误信息表err_tpcds_reasons，处理数据导入错误。详细请参见处理导入错误。 1 SELECT * FROM err_tpcds_reasons; 待数据导入完成后，以gds_user用户登录每台数据服务器，分别停止GDS。以下以IP为192.168.0.90的数据服务器为例，停止GDS。其中GDS进程号为128954。 ps -ef|grep gds gds_user 128954 1 0 15:03 ? 00:00:00 gds -d /input_data -p 192.168.0.90:5000 -D gds_user 129003 118723 0 15:04 pts/0 00:00:00 grep gds kill -9 128954

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-处理导入错误:处理数据导入错误

处理数据导入错误根据获取的错误信息，请对照下表，处理数据导入错误。表2 处理数据导入错误错误信息错误类型原因解决办法 missing data for column "r_reason_desc" 格式错误数据源文件中的列数比外表定义的列数少。对于TEXT格式的数据源文件，由于转义字符（\）导致delimiter（分隔符）错位或者quote（引号字符）错位造成的错误。示例：目标表存在3列字段，导入的数据如下所示。由于存在转义字符“\”，分隔符“|”被转义为第二个字段的字段值，导致第三个字段值缺失。 BE|Belgium\|1 由于列数少导致的报错，选择下列办法解决：在数据源文件中，增加列“r_reason_desc”的字段值。在创建外表时，将参数“fill_missing_fields”设置为“on”。即当导入过程中，若数据源文件中一行数据的最后一个字段缺失，则把最后一个字段的值设置为NULL，不报错。对由于转义字符导致的错误，需检查报错的行中是否含有转义字符（\）。若存在，建议在创建外表时，将参数“noescaping”（是否不对'\'和后面的字符进行转义）设置为true。 extra data after last expected column 格式错误数据源文件中的列数比外表定义的列数多。在数据源文件中，删除多余的字段值。在创建外表时，将参数“ignore_extra_data”设置为“on”。即在导入过程中，若数据源文件比外表定义的列数多，则忽略行尾多出来的列。 invalid input syntax for type numeric: "a" 格式错误数据类型错误。在数据源文件中，修改输入字段的数据类型。根据此错误信息，请将输入的数据类型修改为numeric。 null value in column "staff_id" violates not-null constraint 非格式错误非空约束。在数据源文件中，增加非空字段信息。根据此错误信息，请增加“staff_id”列的值。 duplicate key value violates unique constraint "reg_id_pk" 非格式错误唯一约束。删除数据源文件中重复的行。通过设置关键字“DISTINCT”，从SELECT结果集中删除重复的行，保证导入的每一行都是唯一的。 1 INSERT INTO reasons SELECT DISTINCT * FROM foreign_tpcds_reasons; value too long for type character varying(16) 格式错误字段值长度超过限制。在数据源文件中，修改字段值长度。根据此错误信息，字段值长度限制为VARCHAR2(16)。

数据仓库服务 GAUSSDB(DWS) 从OBS导入CSV、TXT数据
数据仓库服务 GAUSSDB(DWS)-OBS上的数据准备:原始数据

原始数据假设您已将2个ORC数据文件存储在OBS上，其原始数据分别如下：数据文件“product_info.0” 示例数据如下所示： 1 2 3 4 5 100,XHDK-A-1293-#fJ3,2017-09-01,A,2017 Autumn New Shirt Women,red,M,328,2017-09-04,715,good! 205,KDKE-B-9947-#kL5,2017-09-01,A,2017 Autumn New Knitwear Women,pink,L,584,2017-09-05,406,very good! 300,JODL-X-1937-#pV7,2017-09-01,A,2017 autumn new T-shirt men,red,XL,1245,2017-09-03,502,Bad. 310,QQPX-R-3956-#aD8,2017-09-02,B,2017 autumn new jacket women,red,L,411,2017-09-05,436,It's really super nice. 150,ABEF-C-1820-#mC6,2017-09-03,B,2017 Autumn New Jeans Women,blue,M,1223,2017-09-06,1200,The seller's packaging is exquisite. 数据文件“product_info.1” 示例数据如下所示： 1 2 3 4 5 200,BCQP-E-2365-#qE4,2017-09-04,B,2017 autumn new casual pants men,black,L,997,2017-09-10,301,The clothes are of good quality. 250,EABE-D-1476-#oB1,2017-09-10,A,2017 autumn new dress women,black,S,841,2017-09-15,299,Follow the store for a long time. 108,CDXK-F-1527-#pL2,2017-09-11,A,2017 autumn new dress women,red,M,85,2017-09-14,22,It's really amazing to buy. 450,MMCE-H-4728-#nP9,2017-09-11,A,2017 autumn new jacket women,white,M,114,2017-09-14,22,Open the package and the clothes have no odor. 260,OCDA-G-2817-#bD3,2017-09-12,B,2017 autumn new woolen coat women,red,L,2004,2017-09-15,826,Very favorite clothes.

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-OBS上的数据准备:获取源数据的OBS路径并设置读取权限

获取源数据的OBS路径并设置读取权限登录OBS管理控制台。单击“服务列表”，选择“ 对象存储服务 ”，打开OBS管理控制台页面。获取数据源文件的OBS路径。数据源文件在上传到OBS桶之后，会生成全局唯一的访问路径。在创建外表时需要指定数据源文件的OBS路径。如何查看OBS路径，请参见《对象存储服务控制台指南》的通过对象URL访问对象章节。例如，在本例中，查看到数据文件的OBS路径分别为： 1 2 https://obs.cn-north-1.myhuaweicloud.com/mybucket/demo.db/product_info_orc/product_info.0 https://obs.cn-north-1.myhuaweicloud.com/mybucket/demo.db/product_info_orc/product_info.1 为用户设置OBS桶的读取权限。在使用SQL on OBS功能时，执行该功能的用户需要取得数据源文件所在OBS桶的读取权限。通过配置桶的ACL权限，可以将读取权限授予指定的用户账号。具体请参见《对象存储服务控制台指南》中的配置桶ACL章节。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-OBS上的数据准备:操作场景

操作场景使用SQL on OBS功能查询OBS数据之前：已将ORC数据存储在OBS上。例如，在使用Hive或Spark等组件时创建了ORC表，其表数据已经存储在OBS上的场景。假设有2个ORC数据文件“product_info.0”和“product_info.1”，其原始数据如原始数据所示，都已经存储在OBS桶“mybucket”的“demo.db/product_info_orc/”目录中。如果数据文件已经在OBS上了，请执行获取源数据的OBS路径并设置读取权限中的步骤。本小节以导入ORC格式为例，CARBONDATA、PARQUET和JSON数据的导入方法与ORC格式相似。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-使用gs_restore导入数据:示例

示例示例一：执行gs_restore，导入指定MPPDB_backup.dmp文件（自定义归档格式）中postgres数据库的数据和对象定义。 1 2 3 gs_restore -W password backup/MPPDB_backup.dmp -p 8000 -h 10.10.10.100 -d backupdb gs_restore[2017-07-21 19:16:26]: restore operation successful gs_restore: total time: 13053 ms 示例二：执行gs_restore，导入指定MPPDB_backup.tar文件（tar归档格式）中postgres数据库的数据和对象定义。 1 2 3 gs_restore backup/MPPDB_backup.tar -p 8000 -h 10.10.10.100 -d backupdb gs_restore[2017-07-21 19:21:32]: restore operation successful gs_restore[2017-07-21 19:21:32]: total time: 21203 ms 示例三：执行gs_restore，导入指定MPPDB_backup目录文件（目录归档格式）中postgres数据库的数据和对象定义。 1 2 3 gs_restore backup/MPPDB_backup -p 8000 -h 10.10.10.100 -d backupdb gs_restore[2017-07-21 19:26:46]: restore operation successful gs_restore[2017-07-21 19:26:46]: total time: 21003 ms 示例四：执行gs_restore，将postgres数据库的所有对象的定义导入至backupdb数据库。导入前，postgres存在完整的定义和数据，导入后，backupdb数据库只存在所有对象定义，表没有数据。 1 2 3 gs_restore -W password /home//backup/MPPDB_backup.tar -p 8000 -h 10.10.10.100 -d backupdb -s -e -c gs_restore[2017-07-21 19:46:27]: restore operation successful gs_restore[2017-07-21 19:46:27]: total time: 32993 ms 示例五：执行gs_restore，导入MPPDB_backup.dmp文件中PUBLIC模式的所有定义和数据。在导入时会先删除已经存在的对象，如果原对象存在跨模式的依赖则需手工强制干预。 1 2 3 4 5 6 7 gs_restore backup/MPPDB_backup.dmp -p 8000 -h 10.10.10.100 -d backupdb -e -c -n PUBLIC gs_restore: [archiver (db)] Error while PROCESSING TOC: gs_restore: [archiver (db)] Error from TOC entry 313; 1259 337399 TABLE table1 gaussdba gs_restore: [archiver (db)] could not execute query: ERROR: cannot drop table table1 because other objects depend on it DETAIL: view t1.v1 depends on table table1 HINT: Use DROP ... CASCADE to drop the dependent objects too. Command was: DROP TABLE public.table1; 手工删除依赖，导入完成后再重新创建。 1 2 3 gs_restore backup/MPPDB_backup.dmp -p 8000 -h 10.10.10.100 -d backupdb -e -c -n PUBLIC gs_restore[2017-07-21 19:52:26]: restore operation successful gs_restore[2017-07-21 19:52:26]: total time: 2203 ms 示例六：执行gs_restore，导入MPPDB_backup.dmp文件中PUBLIC模式下表hr.staffs的定义。在导入之前，hr.staffs表不存在。 1 2 3 gs_restore backup/MPPDB_backup.dmp -p 8000 -h 10.10.10.100 -d backupdb -e -c -s -n PUBLIC -t hr.staffs gs_restore[2017-07-21 19:56:29]: restore operation successful gs_restore[2017-07-21 19:56:29]: total time: 21000 ms 示例七：执行gs_restore，导入MPPDB_backup.dmp文件中PUBLIC模式下表hr.staffs的数据。在导入之前，hr.staffs表不存在数据。 1 2 3 gs_restore backup/MPPDB_backup.dmp -p 8000 -h 10.10.10.100 -d backupdb -e -a -n PUBLIC -t hr.staffs gs_restore[2017-07-21 20:12:32]: restore operation successful gs_restore[2017-07-21 20:12:32]: total time: 20203 ms 示例八：执行gs_restore，导入指定表hr.staffs的定义。在导入之前，hr.staffs表的数据是存在的。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 human_resource=# select * from hr.staffs; staff_id | first_name | last_name | email | phone_number | hire_date | employment_id | salary | commission_pct | manager_id | section_id ----------+-------------+-------------+----------+--------------------+---------------------+---------------+----------+----------------+------------+------------ 200 | Jennifer | Whalen | JWHALEN | 515.123.4444 | 1987-09-17 00:00:00 | AD_ASST | 4400.00 | | 101 | 10 201 | Michael | Hartstein | MHARTSTE | 515.123.5555 | 1996-02-17 00:00:00 | MK_MAN | 13000.00 | | 100 | 20 gsql -d human_resource -p 8000 gsql ((GaussDB x.x.x build 39137c2d) compiled at 2022-04-01 15:43:11 commit 3629 last mr 5138 release) Non-SSL connection (SSL connection is recommended when requiring high-security) Type "help" for help. human_resource=# drop table hr.staffs CASCADE; NOTICE: drop cascades to view hr.staff_details_view gs_restore -W password /home//backup/MPPDB_backup.tar -p 8000 -h 10.10.10.100-d human_resource -n hr -t staffs -s -e restore operation successful total time: 904 ms human_resource=# select * from hr.staffs; staff_id | first_name | last_name | email | phone_number | hire_date | employment_id | salary | commission_pct | manager_id | section_id ----------+------------+-----------+-------+--------------+-----------+---------------+--------+----------------+------------+------------ (0 rows) 示例九：执行gs_restore，导入staffs和areas两个指定表的定义和数据。在导入之前，staffs和areas表不存在。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 human_resource=# \d List of relations Schema | Name | Type | Owner | Storage --------+--------------------+-------+----------+---------------------------------- hr | employment_history | table | | {orientation=row,compression=no} hr | employments | table | | {orientation=row,compression=no} hr | places | table | | {orientation=row,compression=no} hr | sections | table | | {orientation=row,compression=no} hr | states | table | | {orientation=row,compression=no} (5 rows) gs_restore -W password /home/mppdb/backup/MPPDB_backup.tar -p 8000 -h 10.10.10.100 -d human_resource -n hr -t staffs -n hr -t areas restore operation successful total time: 724 ms human_resource=# \d List of relations Schema | Name | Type | Owner | Storage --------+--------------------+-------+----------+---------------------------------- hr | areas | table | | {orientation=row,compression=no} hr | employment_history | table | | {orientation=row,compression=no} hr | employments | table | | {orientation=row,compression=no} hr | places | table | | {orientation=row,compression=no} hr | sections | table | | {orientation=row,compression=no} hr | staffs | table | | {orientation=row,compression=no} hr | states | table | | {orientation=row,compression=no} (7 rows) human_resource=# select * from hr.areas; area_id | area_name ---------+------------------------ 4 | Iron 1 | Wood 2 | Lake 3 | Desert (4 rows) 示例十：执行gs_restore，导入hr的模式，包含模式下的所有对象定义和数据。 1 2 3 gs_restore -W password /home//backup/MPPDB_backup1.sql -p 8000 -h 10.10.10.100 -d backupdb -n hr -e -c restore operation successful total time: 702 ms 示例十一：执行gs_restore，同时导入hr和hr1两个模式，仅导入模式下的所有对象定义。 1 2 3 gs_restore -W password /home//backup/MPPDB_backup2.dmp -p 8000 -h 10.10.10.100 -d backupdb -n hr -n hr1 -s restore operation successful total time: 665 ms 示例十二：执行gs_restore，将human_resource数据库导出文件进行解密并导入至backupdb数据库中。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 create database backupdb; gs_restore /home//backup/MPPDB_backup.tar -p 8000 -h 10.10.10.100 -d backupdb --with-key=1234567812345678 restore operation successful total time: 23472 ms gsql -d backupdb -p 8000 -r gsql ((GaussDB x.x.x build 39137c2d) compiled at 2022-04-01 15:43:11 commit 3629 last mr 5138 release) Non-SSL connection (SSL connection is recommended when requiring high-security) Type "help" for help. backupdb=# select * from hr.areas; area_id | area_name ---------+------------------------ 4 | Iron 1 | Wood 2 | Lake 3 | Desert (4 rows) 示例十三：用户user1不具备将导出文件中数据导入至数据库backupdb的权限，而角色role1具备该权限，要实现将文件数据导入数据库backupdb，可以在导出命令中设置--role角色为role1，使用role1的权限，完成导出目的。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 human_resource=# CREATE USER user1 IDENTIFIED BY 'password'; gs_restore -U user1 -W password /home//backup/MPPDB_backup.tar -p 8000 -h 10.10.10.100 -d backupdb --role role1 --rolepassword password restore operation successful total time: 554 ms gsql -d backupdb -p 8000 -r gsql ((GaussDB x.x.x build 39137c2d) compiled at 2022-04-01 15:43:11 commit 3629 last mr 5138 release) Non-SSL connection (SSL connection is recommended when requiring high-security) Type "help" for help. backupdb=# select * from hr.areas; area_id | area_name ---------+------------------------ 4 | Iron 1 | Wood 2 | Lake 3 | Desert (4 rows)

数据仓库服务 GAUSSDB(DWS) 元数据迁移
数据仓库服务 GAUSSDB(DWS)-使用gs_restore导入数据:操作场景

操作场景 gs_restore是GaussDB(DWS)提供的与gs_dump配套的导入工具。通过该工具，可将gs_dump导出的文件导入至数据库。gs_restore支持导入的文件格式包含自定义归档格式、目录归档格式和tar归档格式。 gs_restore具备如下两种功能。导入至数据库如果指定了数据库，则数据将被导入到指定的数据库中。其中，并行导入必须指定连接数据库的密码。导入至脚本文件如果未指定导入数据库，则创建包含重建数据库所需的SQL语句脚本，并将其写入至文件或者标准输出。该脚本文件等效于gs_dump导出的纯文本格式文件。 gs_restore工具在导入时，允许用户选择需要导入的内容，并支持在数据导入前对等待导入的内容进行排序。

数据仓库服务 GAUSSDB(DWS) 元数据迁移
数据仓库服务 GAUSSDB(DWS)-通过外表查询OBS上的数据:导入数据后查询数据

导入数据后查询数据在GaussDB(DWS)数据库中，创建导入数据的目标表，用于存储导入的数据。该表的表结构必须与创建外表中创建的外表的表结构保持一致，即字段个数、字段类型要完全一致。例如，创建一个名为product_info的表，示例如下： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 DROP TABLE IF EXISTS product_info; CREATE TABLE product_info ( product_price integer not null, product_id char(30) not null, product_time date , product_level char(10) , product_name varchar(200) , product_type1 varchar(20) , product_type2 char(10) , product_monthly_sales_cnt integer , product_comment_time date , product_comment_num integer , product_comment_content varchar(200) ) with ( orientation = column, compression=middle ) DISTRIBUTE BY HASH (product_id); 执行“INSERT INTO .. SELECT ..”命令从外表导入数据到目标表。示例： 1 INSERT INTO product_info SELECT * FROM product_info_ext_obs; 若出现以下类似信息，说明数据导入成功。 1 INSERT 0 10 执行SELECT命令，查看从OBS导入到GaussDB(DWS)中的数据。 1 SELECT * FROM product_info; 查询结果显示如原始数据中所示的数据，表示导入成功。查询结果的结尾将显示以下信息： 1 (10 rows)

数据仓库服务 GAUSSDB(DWS) 从OBS导入ORC、CARBONDATA、PARQUET和JSON数据
数据仓库服务 GAUSSDB(DWS)-创建外部服务器

创建外部服务器本章节包含创建OBS外部服务器和创建HDFS外部服务器。创建OBS外部服务器，用于定义OBS服务器的信息，供外表调用，针对集群不同版本，创建方式不同。具体操作步骤请参见创建外部服务器。 8.2.0及以上集群版本：通过管理控制台创建OBS数据源实现以委托方式访问OBS桶数据。 8.2.0以下集群版本：通过手动创建OBS服务器实现。创建外部服务器的详细语法，请参见CREATE SERVER。创建HDFS外部服务器的具体操作步骤请参见手动创建外部服务器。父主题：导出ORC和PARQUET数据到OBS

数据仓库服务 GAUSSDB(DWS) 导出ORC和PARQUET数据到OBS
数据仓库服务 GAUSSDB(DWS)-示例:单表导出操作步骤

单表导出操作步骤通过创建外表，将数据库中的单表导出至OBS的两个桶中。用户通过管理控制台登录到OBS数据服务器。在OBS数据服务器上，分别创建数据文件存放的两个桶“/input-data1”“/input-data2”，并创建每个桶下面的data目录“/input-data1/data”“/input-data2/data”。在GaussDB(DWS)数据库上，创建外表tpcds.customer_address_ext1和tpcds.customer_address_ext2用于OBS数据服务器接收数据库导出数据。 OBS与集群处于同一区域，需要导出的表为GaussDB(DWS)示例表tpcds.customer_address。其中设置的导出信息如下所示：由于OBS数据服务器上的数据源文件存放目录为“/input-data1/data/ ”和/input-data2/data/ ，所以设置tpcds.customer_address_ext1参数“location”为“obs://input-data1/data/ ”，设置tpcds.customer_address_ext2参数“location”为“ obs://input-data2/data/”。设置的数据格式信息是根据表从数据库导出时需要的详细数据格式参数信息指定的，参数设置如下所示：数据源文件格式（format）为“CSV”。编码格式（encoding）为“UTF-8”。字段分隔符（delimiter）为“E'\x08'”。是否使用加密（encrypt），默认为“off”。（必选）用户获取OBS访问协议对应的AK值（access_key ）。（必选）用户获取OBS访问协议对应的SK值（secret_access_key）。用户在创建用户时已经获取了access_key和secret_access_key的密钥，请根据实际密钥替换示例中的内容。根据以上信息，创建的外表如下所示：认证用的AK和SK硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 CREATE FOREIGN TABLE tpcds.customer_address_ext1 ( ca_address_sk integer , ca_address_id char(16) , ca_street_number char(10) , ca_street_name varchar(60) , ca_street_type char(15) , ca_suite_number char(10) , ca_city varchar(60) , ca_county varchar(30) , ca_state char(2) , ca_zip char(10) , ca_country varchar(20) , ca_gmt_offset decimal(5,2) , ca_location_type char(20) ) SERVER gsmpp_server OPTIONS(LOCATION 'obs://input-data1/data/', FORMAT 'CSV', ENCODING 'utf8', DELIMITER E'\x08', ENCRYPT 'off', ACCESS_KEY 'access_key_value_to_be_replaced', SECRET_ACCESS_KEY 'secret_access_key_value_to_be_replaced' )Write Only; 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 CREATE FOREIGN TABLE tpcds.customer_address_ext2 ( ca_address_sk integer , ca_address_id char(16) , ca_street_number char(10) , ca_street_name varchar(60) , ca_street_type char(15) , ca_suite_number char(10) , ca_city varchar(60) , ca_county varchar(30) , ca_state char(2) , ca_zip char(10) , ca_country varchar(20) , ca_gmt_offset decimal(5,2) , ca_location_type char(20) ) SERVER gsmpp_server OPTIONS(LOCATION 'obs://input-data2/data/', FORMAT 'CSV', ENCODING 'utf8', DELIMITER E'\x08', ENCRYPT 'off', ACCESS_KEY 'access_key_value_to_be_replaced', SECRET_ACCESS_KEY 'secret_access_key_value_to_be_replaced' )Write Only; 在GaussDB(DWS)数据库上，将数据表tpcds.customer_address并发导出到外表tpcds.customer_address_ext1和tpcds.customer_address_ext2中。 1 INSERT INTO tpcds.customer_address_ext1 SELECT * FROM tpcds.customer_address; 1 INSERT INTO tpcds.customer_address_ext2 SELECT * FROM tpcds.customer_address; OBS外表在设计上禁止往非空的路径下导出文件，但是在并发场景下会出现同一路径导出文件的情况，此时会发生异常。异常场景：假如用户使用同一张表的数据并发导出到同一个OBS的外表，在一条SQL语句执行在OBS服务器上没有生成文件时，另一条SQL语句也执行导出，最终执行结果为两条SQL语句均执行成功，产生数据覆盖现象，建议用户在执行OBS外表导出任务时，不要往同一OBS外表并发导出。

数据仓库服务 GAUSSDB(DWS) 导出CSV、TXT数据到OBS
数据仓库服务 GAUSSDB(DWS)-示例:多表并发导出操作步骤

多表并发导出操作步骤通过创建的两个外表，将数据库中的两个表分别导出至OBS的桶中。用户通过管理控制台登录到OBS数据服务器。在OBS数据服务器上，分别创建数据文件存放的两个桶“/input-data1”“/input-data2”，并创建每个桶下面的data目录“/input-data1/data”“/input-data2/data”。在GaussDB(DWS)数据库上，创建外表tpcds.customer_address_ext1和tpcds.customer_address_ext2分别用于OBS服务器接收导出的数据。规划OBS与集群处于同一区域，需要导出的表为已存在的表tpcds.customer_address和tpcds.customer_demographics。其中设置的导出信息如下所示：由于OBS服务器上的数据源文件存放目录为“/input-data1/data/ ”和/input-data2/data/ ，所以设置tpcds.customer_address_ext1参数“location”为“obs://input-data1/data/ ”，设置tpcds.customer_address_ext2参数“location”为“ obs://input-data2/data/”。设置的数据格式信息是根据表从GaussDB(DWS)中导出时需要的详细数据格式参数信息指定的，参数设置如下所示：数据源文件格式（format）为“CSV”。编码格式（encoding）为“UTF-8”。字段分隔符（delimiter）为“E'\x08'”。是否使用加密（encrypt），默认为“off”。（必选）用户获取OBS访问协议对应的AK值（access_key ）。（必选）用户获取OBS访问协议对应的SK值（secret_access_key）。用户在创建用户时已经获取了access_key和secret_access_key的密钥，请根据实际密钥替换示例中的内容。根据以上信息，创建的外表如下所示：认证用的AK和SK硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 CREATE FOREIGN TABLE tpcds.customer_address_ext1 ( ca_address_sk integer , ca_address_id char(16) , ca_street_number char(10) , ca_street_name varchar(60) , ca_street_type char(15) , ca_suite_number char(10) , ca_city varchar(60) , ca_county varchar(30) , ca_state char(2) , ca_zip char(10) , ca_country varchar(20) , ca_gmt_offset decimal(5,2) , ca_location_type char(20) ) SERVER gsmpp_server OPTIONS(LOCATION 'obs://input-data1/data/', FORMAT 'CSV', ENCODING 'utf8', DELIMITER E'\x08', ENCRYPT 'off', ACCESS_KEY 'access_key_value_to_be_replaced', SECRET_ACCESS_KEY 'secret_access_key_value_to_be_replaced' )Write Only; 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 CREATE FOREIGN TABLE tpcds.customer_address_ext2 ( ca_address_sk integer , ca_address_id char(16) , ca_address_name varchar(20) , ca_address_code integer , ca_street_number char(10) , ca_street_name varchar(60) , ca_street_type char(15) , ca_suite_number char(10) , ca_city varchar(60) , ca_county varchar(30) , ca_state char(2) , ca_zip char(10) , ca_country varchar(20) , ca_gmt_offset decimal(5,2) ) SERVER gsmpp_server OPTIONS(LOCATION 'obs://input_data2/data/', FORMAT 'CSV', ENCODING 'utf8', DELIMITER E'\x08', QUOTE E'\x1b', ENCRYPT 'off', ACCESS_KEY 'access_key_value_to_be_replaced', SECRET_ACCESS_KEY 'secret_access_key_value_to_be_replaced' )Write Only; 在GaussDB(DWS)数据库上，将数据表tpcds.customer_address和tpcds.warehouse并发导出到外表tpcds.customer_address_ext1和tpcds.customer_address_ext2中。 1 INSERT INTO tpcds.customer_address_ext1 SELECT * FROM tpcds.customer_address; 1 INSERT INTO tpcds.customer_address_ext2 SELECT * FROM tpcds.warehouse;

数据仓库服务 GAUSSDB(DWS) 导出CSV、TXT数据到OBS

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！