数据导入-华为云

MAPREDUCE服务 MRS-使用Broker Load方式导入OBS数据至Doris:前提条件

前提条件已创建包含Doris服务的集群，集群内各服务运行正常。待连接Doris数据库的节点与 MRS 集群网络互通。创建具有Doris管理权限的用户。集群已启用Kerberos认证（安全模式）在 FusionInsight Manager中创建一个人机用户，例如“dorisuser”，创建一个拥有“Doris管理员权限”的角色绑定给该用户。使用新建的用户dorisuser重新登录FusionInsight Manager，修改该用户初始密码。集群未启用Kerberos认证（普通模式）使用admin用户连接Doris后，创建具有管理员权限的角色并绑定给用户。已安装MySQL客户端，相关操作可参考使用MySQL客户端连接Doris。已准备待导入至Doris的数据文件。

MAPREDUCE服务 MRS Doris数据导入

数据管理服务 DAS-数据导出:使用须知

使用须知如果导出数据时未勾选“生成单表文件”，则导出的数据文件后缀为“.zip”格式，此格式的数据文件暂不支持直接导入，需要解压后才可再次导入。如果导出数据时勾选了“生成单表文件”，则导出的数据文件为每个单表的数据文件（“.sql”或者“.csv”格式），该情况下导出的数据文件可直接再次导入。如果导出的Microsoft SQL Server实例表数量超过1万时，使用导出数据库功能会报错表数量过多，无法导出数据。此时请使用导出SQL结果集功能。

数据管理服务 DAS 数据导入和导出

数据仓库服务 GAUSSDB(DWS)-GDS导入/导出类问题:区域支持

区域支持区域支持指的是应用遵守文化偏好的问题，包括字母表、排序、数字格式等。区域是在使用initdb创建一个数据库时自动被初始化的。默认情况下，initdb将会按照它的执行环境的区域设置初始化数据库，即系统已经设置好的区域。如果想要使用其他的区域，可以使用手工指定（initdb –locale=xx）。如果想要将几种区域的规则混合起来，可以使用以下区域子类来控制本地化规则的某些方面。这些类名转换成initdb的选项名来覆盖某个特定分类的区域选择。表1 区域支持字段描述 LC_COLLATE 字符串排序顺序。 LC_CTYPE 字符分类（什么是一个字符？它的大写形式是否等效？） LC_MESSAGES 消息使用的语言Language of messages。 LC_MONETARY 货币数量使用的格式。 LC_NUMERIC 数字的格式。 LC_TIME 日期和时间的格式。

数据仓库服务 GAUSSDB(DWS) 数据导入/导出

数据仓库服务 GAUSSDB(DWS)-GDS导入/导出类问题:字符集

字符集 PG里面的字符集支持各种字符集存储文本，包括单字节字符集，比如ISO 8859系列，以及多字节字符集，比如EUC（扩展Unix编码Extended Unix Code）、UTF-8和Mule内部编码。MPPDB中目前主要使用的字符集包括GBK、UTF-8和LATIN1。所有被支持的字符集都可以被客户端透明地使用，但少数只能在服务器上使用（即作为一种服务器端编码，GBK编码在PG中只是客户端编码，不是服务端编码，MPPDB将GBK引入到服务端编码，这是很多问题的根源）。默认的字符集是在使用initdb初始化PG数据库时选择的。在创建一个数据库实例时可以重载字符集，因此可能会有多个数据库实例并且每一个使用不同的字符集。一个重要的限制是每个数据库的字符集必须和数据库LC_CTYPE（字符分类）和LC_COLLATE （字符串排序顺序）设置兼容。对于C或POSIX，任何字符集都是允许的，但是对于其他区域只有一种字符集可以正确工作。不过，在Windows上UTF-8编码可以和任何区域配合使用。 SQL_ASCII设置与其他设置表现得相当不同。如果服务器字符集是SQL_ASCII，服务器把字节值0-127根据ASCII标准解释，而字节值128-255则当作无法解析的字符。如果设置为SQL_ASCII，就不会有编码转换。因此，这个设置基本不是用来声明所使用的指定编码，因为这个声明会忽略编码。在大多数情况下，如果使用了任何非ASCII数据，那么使用SQL_ASCII设置都是不明智的，因为PG将无法帮助你转换或者校验非ASCII字符。数据库系统支持某种编码，主要涉及三个方面：数据库服务器支持，数据访问接口支持以及客户端工具支持。数据库服务器字符编码数据库服务器支持某种编码，是指数据库服务器能够从客户端接收、存储以及向客户端提供该种编码的字符（包括标识符、字符型字段值），并能将该种编码的字符转换到其它编码（如UTF-8编码转到GBK编码）。指定数据库服务器编码：创建数据库时指定：CREATE DATABASE … ENCODING … //可以取ASCII、UTF-8、EUC_CN、……；查看数据库编码：show server_encoding。数据库访问接口编码数据库访问接口支持某种编码，是指数据库访问接口要做到能对该种编码的字符进行正确读写，不应出现数据丢失、数据失真等情况。以JDBC接口为例： JDBC接口一般根据JVM的file.encoding设置client_encoding：set client_encoding to file_encoding；将String转换成client_encoding编码的字节流，传给服务器端：原型String.getBytes(client_encoding) ；收到服务器的字节流后，使用client_encoding构造String对象作为getString的返回值给应用程序：原型String(byte[], …, client_encoding)。客户端编码客户端工具支持某种编码，是指客户端工具能够显示从数据库读取该种编码的字符，也能通过本工具将该种编码的字符提交到服务器端。指定会话的客户端编码：SET CLIENT_ENCODING TO 'value'；查看数据库编码：Show client_encoding。

数据仓库服务 GAUSSDB(DWS) 数据导入/导出

MAPREDUCE服务 MRS-配置ClickHouse对接RDS MySQL数据库:ClickHouse通过MySQL引擎对接RDS服务

ClickHouse通过MySQL引擎对接RDS服务 MySQL引擎用于将远程的MySQL服务器中的表映射到ClickHouse中，并允许您对表进行INSERT和SELECT查询，以方便您在ClickHouse与MySQL之间进行数据交换。 MySQL引擎使用语法： CREATE DATABASE [IF NOT EXISTS] db_name [ON CLUSTER cluster] ENGINE = MySQL('host:port', ['database' | database], 'user', 'password') MySQL数据库引擎参数说明： host:port：RDS服务MySQL数据库实例IP地址和端口。 database：RDS服务MySQL数据库名。 user：RDS服务MySQL数据库用户名。 password：RDS服务MySQL数据库用户密码，命令中如果携带认证密码信息可能存在安全风险，在执行命令前建议关闭系统的history命令记录功能，避免信息泄露。 MySQL引擎使用示例：连接到RDS服务的MySQL数据库。详细操作可以参考RDS服务MySQ L实例连接。在MySQL数据库上创建表，并插入数据。创建表mysql_table： CREATE TABLE `mysql_table` ( `int_id` INT NOT NULL AUTO_INCREMENT, `float` FLOAT NOT NULL, PRIMARY KEY (`int_id`)); 插入表数据： insert into mysql_table (`int_id`, `float`) VALUES (1,2); 登录ClickHouse客户端安装节点。执行以下命令，切换到客户端安装目录。 cd /opt/client 执行以下命令配置环境变量。 source bigdata_env 如果当前集群已启用Kerberos认证，执行以下命令认证当前用户，当前用户需要具有创建ClickHouse表的权限，具体请参见创建ClickHouse角色章节，为用户绑定对应角色。如果当前集群未启用Kerberos认证，则无需执行本步骤。如果是MRS 3.1.0版本集群，则需要先执行：export CLICKHOUSE_SECURITY_ENABLED=true kinit 组件业务用户例如，kinit clickhouseuser。使用客户端命令连接ClickHouse。 clickhouse client --host clickhouse实例IP --user 用户名 --password --port 端口号输入用户密码在ClickHouse中创建MySQL引擎的数据库，创建成功后自动与MySQL服务器交换数据。 CREATE DATABASE mysql_db ENGINE = MySQL('RDS服务MySQL数据库实例IP地址:MySQL数据库实例端口', 'MySQL数据库名', 'MySQL数据库用户名', 'MySQL数据库用户名密码'); 切换到新建的数据库mysql_db，并查询表数据。 USE mysql_db; 在ClickHouse中查询MySQL数据库表数据。 SELECT * FROM mysql_table; ┌─int_id─┬─float─┐ │ 1 │ 2 │ └─────┴──── ┘ 新增插入数据后也可以正常进行查询。 INSERT INTO mysql_table VALUES (3,4); SELECT * FROM mysql_table; ┌─int_id─┬─float─┐ │ 1 │ 2 │ │ 3 │ 4 │ └─────┴──── ┘

MAPREDUCE服务 MRS ClickHouse数据导入

MAPREDUCE服务 MRS-使用Loader导入数据至MRS集群:前提条件

前提条件创建或获取该任务中创建Loader作业的业务用户和密码。确保用户已授权访问作业执行时操作的HDFS/OBS目录、HBase表和数据。获取外部数据源（SFTP服务器或关系型数据库）使用的用户和密码。检查磁盘空间，确保没有出现告警且余量满足导入、导出数据的大小。使用Loader从SFTP、FTP和HDFS/OBS导入数据时，确保外部数据源的输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。如果设置的任务需要使用指定Yarn队列功能，该用户需要已授权有相关Yarn队列的权限。设置任务的用户需要获取该任务的执行权限，并获取该任务对应的连接的使用权限。

MAPREDUCE服务 MRS 创建Loader数据导入作业

MAPREDUCE服务 MRS-使用Broker Load方式导入数据至Doris:前提条件

前提条件已创建包含Doris服务的集群，集群内各服务运行正常。待连接Doris数据库的节点与MRS集群网络互通。创建具有Doris管理权限的用户。集群已启用Kerberos认证（安全模式）在FusionInsight Manager中创建一个人机用户，例如“dorisuser”，创建一个拥有“Doris管理员权限”的角色绑定给该用户。使用新建的用户dorisuser重新登录FusionInsight Manager，修改该用户初始密码。集群未启用Kerberos认证（普通模式）使用admin用户连接Doris后，创建具有管理员权限的角色并绑定给用户。已安装MySQL客户端，相关操作可参考使用MySQL客户端连接Doris。 Doris中已安装并启动DBroker实例。已安装Hive客户端。如果Doris通过Broker Load跨集群导入数据，需要配置跨集群互信，相关操作可参考配置跨Manager集群互信。

MAPREDUCE服务 MRS Doris数据导入

MAPREDUCE服务 MRS-典型场景：从HDFS/OBS导入数据到HBase:前提条件

前提条件创建或获取该任务中创建Loader作业的业务用户和密码。确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。确保用户已授权访问作业执行时操作的HBase表或phoenix表。检查磁盘空间，确保没有出现告警且余量满足导入、导出数据的大小。使用Loader从HDFS/OBS导入数据时，确保HDFS/OBS输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。如果设置的作业需要使用指定YARN队列功能，该用户需要已授权有相关YARN队列的权限。设置任务的用户需要获取该任务的执行权限，并获取该任务对应的连接的使用权限。

MAPREDUCE服务 MRS 数据导入

MAPREDUCE服务 MRS-配置ClickHouse对接RDS MySQL数据库:ClickHouse通过MySQL引擎对接RDS服务

ClickHouse通过MySQL引擎对接RDS服务 MySQL引擎用于将远程的MySQL服务器中的表映射到ClickHouse中，并允许您对表进行INSERT和SELECT查询，以方便您在ClickHouse与MySQL之间进行数据交换。 MySQL引擎使用语法： CREATE DATABASE [IF NOT EXISTS] db_name [ON CLUSTER cluster] ENGINE = MySQL('host:port', ['database' | database], 'user', 'password') MySQL数据库引擎参数说明： host:port ：RDS服务MySQL数据库实例IP地址和端口。 database ：RDS服务MySQL数据库名。 user ：RDS服务MySQL数据库用户名。 password：RDS服务MySQL数据库用户密码，命令中如果携带认证密码信息可能存在安全风险，在执行命令前建议关闭系统的history命令记录功能，避免信息泄露。 MySQL引擎使用示例：连接到RDS服务的MySQL数据库。详细操作可以参考RDS服务MySQL实例连接。在MySQL数据库上创建表，并插入数据。创建表mysql_table： CREATE TABLE `mysql_table` ( `int_id` INT NOT NULL AUTO_INCREMENT, `float` FLOAT NOT NULL, PRIMARY KEY (`int_id`)); 插入表数据： insert into mysql_table (`int_id`, `float`) VALUES (1,2); 登录ClickHouse客户端安装节点。执行以下命令，切换到客户端安装目录。 cd /opt/client 执行以下命令配置环境变量。 source bigdata_env 如果当前集群已启用Kerberos认证，执行以下命令认证当前用户，当前用户需要具有创建ClickHouse表的权限，具体请参见ClickHouse用户及权限管理章节，为用户绑定对应角色。如果当前集群未启用Kerberos认证，则无需执行本步骤。如果是MRS 3.1.0版本集群，则需要先执行：export CLICKHOUSE_SECURITY_ENABLED=true kinit 组件业务用户例如，kinit clickhouseuser。使用客户端命令连接ClickHouse。 clickhouse client --host clickhouse实例IP --user 用户名 --password --port 端口号输入用户密码在ClickHouse中创建MySQL引擎的数据库，创建成功后自动与MySQL服务器交换数据。 CREATE DATABASE mysql_db ENGINE = MySQL('RDS服务MySQL数据库实例IP地址:MySQL数据库实例端口', 'MySQL数据库名', 'MySQL数据库用户名', 'MySQL数据库用户名密码'); 切换到新建的数据库mysql_db，并查询表数据。 USE mysql_db; 在ClickHouse中查询MySQL数据库表数据。 SELECT * FROM mysql_table; ┌─int_id─┬─float─┐ │ 1 │ 2 │ └─────┴──── ┘ 新增插入数据后也可以正常进行查询。 INSERT INTO mysql_table VALUES (3,4); SELECT * FROM mysql_table; ┌─int_id─┬─float─┐ │ 1 │ 2 │ │ 3 │ 4 │ └─────┴──── ┘

MAPREDUCE服务 MRS ClickHouse数据导入

MAPREDUCE服务 MRS-概述:简介

简介 Loader是实现MRS与外部数据源如关系型数据库、SFTP服务器、FTP服务器之间交换数据和文件的ETL工具，支持将数据或文件从关系型数据库或文件系统导入到MRS服务中。 Loader支持如下数据导入方式：从关系型数据库导入数据到HDFS/OBS。从关系型数据库导入数据到HBase。从关系型数据库导入数据到Phoenix表。从关系型数据库导入数据到Hive表。从SFTP服务器导入数据到HDFS/OBS。从SFTP服务器导入数据到HBase。从SFTP服务器导入数据到Phoenix表。从SFTP服务器导入数据到Hive表。从FTP服务器导入数据到HDFS/OBS。从FTP服务器导入数据到HBase。从FTP服务器导入数据到Phoenix表。从FTP服务器导入数据到Hive表。从同一集群内HDFS/OBS导入数据到HBase。 MRS与外部数据源交换数据和文件时需要连接数据源。系统提供以下连接器，用于配置不同类型数据源的连接参数： generic-jdbc-connector：关系型数据库连接器。 ftp-connector：FTP数据源连接器。 hdfs-connector：HDFS数据源连接器。 oracle-connector：Oracle数据库专用连接器，使用row_id作为分区列，相对generic-jdbc-connector来说，Map任务分区更均匀，并且不依赖分区列是否有创建索引。 mysql-fastpath-connector：MYSQL数据库专用连接器，使用MYSQL的mysqldump和mysqlimport工具进行数据的导入导出，相对generic-jdbc-connector来说，导入导出速度更快。 sftp-connector：SFTP数据源连接器。 oracle-partition-connector：支持Oracle分区特性的连接器，专门对Oracle分区表的导入导出进行优化。使用FTP数据源连接器时不加密数据，可能存在安全风险，建议使用SFTP数据源连接器。建议将SFTP服务器、FTP服务器和数据库服务器与Loader部署在独立的子网中，以保障数据安全地导入。与关系数据库连接时，可以选择通用数据库连接器（generic-jdbc-connector）或者专用数据库连接器（oracle-connector、oracle-partition-connector、mysql-fastpath-connector），专用数据库连接器特别针对具体数据库类型进行优化，相对通用数据库连接器来说，导出、导入速度更快。使用mysql-fastpath-connector时，要求在NodeManager节点上有MySQL的mysqldump和mysqlimport命令，并且此两个命令所属MySQL客户端版本与MySQL服务器版本兼容，如果没有这两个命令或版本不兼容，请参考http://dev.mysql.com/doc/refman/5.7/en/linux-installation-rpm.html，安装MySQL client applications and tools。使用oracle-connector时，要求给连接用户赋予如下系统表或者视图的select权限： dba_tab_partitions、dba_constraints、dba_tables 、dba_segments 、v$version、dba_objects、v$instance、SYS_CONTEXT函数、dba_extents、 dba_tab_subpartitions。使用oracle-partition-connector时，要求给连接用户赋予如下系统表的select权限：dba_objects、dba_extents。

MAPREDUCE服务 MRS 数据导入

数据仓库服务 GAUSSDB(DWS)-执行创建OBS外表的SQL语句时，提示Access Denied:处理方法

处理方法创建OBS外表语句中的访问密钥AK和SK错误请获取正确的访问密钥AK和SK，写入创建OBS外表的SQL语句中。获取访问密钥的步骤如下：登录 GaussDB (DWS)管理控制台。将鼠标移至右上角的用户名，单击“我的凭证”。进入“我的凭证”后，在左侧导航树单击“访问密钥”。在访问密钥页面，可以查看已有的访问密钥ID（即AK）。如果要同时获取AK和SK，单击“新增访问密钥”创建并下载访问密钥。账户OBS权限不足，对OBS桶没有读、写权限您必须给指定的用户授予所需的OBS访问权限：通过OBS外表导入数据到GaussDB(DWS)时，执行导入操作的用户必须具备数据源文件所在的OBS桶和对象的读取权限。通过OBS外表导出数据时，执行导出操作的用户必须具备数据导出路径所在的OBS桶和对象的读取和写入权限。有关配置OBS权限的具体操作，请参见《对象存储服务控制台指南》中的配置桶ACL和“配置对象ACL”章节。

数据仓库服务 GAUSSDB(DWS) 数据导入/导出

数据仓库服务 GAUSSDB(DWS)-执行创建OBS外表的SQL语句时，提示Access Denied:原因分析

原因分析创建OBS外表语句中的访问密钥AK和SK错误，会出现如下所示的错误信息： 1 ERROR: Fail to connect OBS in node:cn_5001 with error code: AccessDenied 账户OBS权限不足，对OBS桶没有读、写权限，会出现如下所示的错误信息： 1 dn_6001_6002: Datanode 'dn_6001_6002' fail to read OBS object bucket:'obs-bucket-name' key:'xxx/xxx/xxx.csv' with OBS error code:AccessDenied message: Access Denied 默认情况下，您不具备访问其他账号的OBS数据的权限，此外， IAM 用户（相当于子用户）也不具备访问其所属账号的OBS数据的权限。

数据仓库服务 GAUSSDB(DWS) 数据导入/导出

表格存储服务 CLOUDTABLE-Broker Load:开始导入

开始导入下面我们通过几个实际的场景示例来看Broker Load的使用。数据样例： '100','101','102','103','104','105',100.00,100.01,100.02,'100',200,100.08,2022-04-01 '101','102','103','104','105','105',100.00,100.01,100.02,'100',200,100.08,2022-04-02 '102','103','104','105','106','105',100.00,100.01,100.02,'100',200,100.08,2022-04-03 准备工作：在本地创建示例数据文件source_text.txt，并上传至hdfs的/tmp/。在hive中创建ods_source表。 CREATE TABLE `ods_source`( `id` string, `store_id` string, `company_id` string, `tower_id` string, `commodity_id` string, `commodity_name` string, `commodity_price` double, `member_price` double, `cost_price` double, `unit` string, `quantity` string, `actual_price` double, `day ` string ) row format delimited fields terminated by ',' lines terminated by '\n' stored as textfile; 将hdfs创建的txt文件导入到ods_source表。 load data inpath '/tmp/source_text.txt' into table ods_source;

表格存储服务 CLOUDTABLE 批量数据导入

表格存储服务 CLOUDTABLE-Broker Load:相关系统配置

相关系统配置 FE配置。下面几个配置属于Broker load的系统级别配置，也就是作用于所有Broker load导入任务的配置。主要通过修改FE配置项来调整配置值。 max_bytes_per_broker_scanner/max_broker_concurrency max_bytes_per_broker_scanner配置限制了单个BE处理的数据量的最大值。max_broker_concurrency配置限制了一个作业的最大的导入并发数。最小处理的数据量（默认64M），最大并发数，源文件的大小和当前集群BE的个数共同决定了本次导入的并发数。本次导入并发数=Math.min(源文件大小/最小处理量（默认64M），最大并发数，当前BE节点个数)。本次导入单个BE的处理量=源文件大小/本次导入的并发数。通常一个导入作业支持的最大数据量为max_bytes_per_broker_scanner*BE节点数。如果需要导入更大数据量，则需要适当调整max_bytes_per_broker_scanner参数的大小。默认配置：参数名：max_broker_concurrency，默认10。参数名：max_bytes_per_broker_scanner，默认3G，单位bytes。

表格存储服务 CLOUDTABLE 批量数据导入

表格存储服务 CLOUDTABLE-Broker Load:作业调度

作业调度系统会限制一个集群内正在运行的Broker Load作业数量，以防止同时运行过多的Load作业。首先，FE的配置参数：desired_max_waiting_jobs会限制一个集群内未开始或正在运行（作业状态为PENDING或LOADING）的Broker Load作业数量。默认为100。如果超过这个阈值，新提交的作业将会被直接拒绝。一个Broker Load作业会被分为pending task和loading task阶段。其中pending task负责获取导入文件的信息，而loading task会发送给BE执行具体的导入任务。 FE的配置参数async_pending_load_task_pool_size用于限制同时运行的pending task的任务数量。也相当于控制了实际正在运行的导入任务数量。该参数默认为10。也就是说，假设用户提交了100个Load作业，同时只会有10个作业会进入LOADING状态开始执行，而其他作业处于PENDING等待状态。 FE的配置参数async_loading_load_task_pool_size用于限制同时运行的loading task的任务数量。一个Broker Load作业会有1 pending task和多个loading task（等于LOAD语句中DATA INFILE子句的个数）。所以async_loading_load_task_pool_size应该大于等于async_pending_load_task_pool_size。

表格存储服务 CLOUDTABLE 批量数据导入

云服务器内容精选

数据导入

7*24

备案

专业服务

退订

建议反馈

售前咨询热线