数据导入-华为云

MAPREDUCE服务 MRS-使用Broker Load方式导入数据至Doris:前提条件

前提条件已创建包含Doris服务的集群，集群内各服务运行正常。待连接Doris数据库的节点与 MRS 集群网络互通。创建具有Doris管理权限的用户。集群已启用Kerberos认证（安全模式）在 FusionInsight Manager中创建一个人机用户，例如“dorisuser”，创建一个拥有“Doris管理员权限”的角色绑定给该用户。使用新建的用户dorisuser重新登录FusionInsight Manager，修改该用户初始密码。集群未启用Kerberos认证（普通模式）使用admin用户连接Doris后，创建具有管理员权限的角色并绑定给用户。已安装MySQL客户端，相关操作可参考使用MySQL客户端连接Doris。 Doris中已安装并启动DBroker实例。已安装Hive客户端。如果Doris通过Broker Load跨集群导入数据，需要配置跨集群互信，相关操作可参考配置跨Manager集群互信。

MAPREDUCE服务 MRS Doris数据导入

MAPREDUCE服务 MRS-配置ClickHouse对接RDS MySQL数据库:ClickHouse通过MySQL引擎对接RDS服务

ClickHouse通过MySQL引擎对接RDS服务 MySQL引擎用于将远程的MySQL服务器中的表映射到ClickHouse中，并允许您对表进行INSERT和SELECT查询，以方便您在ClickHouse与MySQL之间进行数据交换。 MySQL引擎使用语法： CREATE DATABASE [IF NOT EXISTS] db_name [ON CLUSTER cluster] ENGINE = MySQL('host:port', ['database' | database], 'user', 'password') MySQL数据库引擎参数说明： host:port：RDS服务MySQL数据库实例IP地址和端口。 database：RDS服务MySQL数据库名。 user：RDS服务MySQL数据库用户名。 password：RDS服务MySQL数据库用户密码，命令中如果携带认证密码信息可能存在安全风险，在执行命令前建议关闭系统的history命令记录功能，避免信息泄露。 MySQL引擎使用示例：连接到RDS服务的MySQL数据库。详细操作可以参考RDS服务MySQ L实例连接。在MySQL数据库上创建表，并插入数据。创建表mysql_table： CREATE TABLE `mysql_table` ( `int_id` INT NOT NULL AUTO_INCREMENT, `float` FLOAT NOT NULL, PRIMARY KEY (`int_id`)); 插入表数据： insert into mysql_table (`int_id`, `float`) VALUES (1,2); 登录ClickHouse客户端安装节点。执行以下命令，切换到客户端安装目录。 cd /opt/client 执行以下命令配置环境变量。 source bigdata_env 如果当前集群已启用Kerberos认证，执行以下命令认证当前用户，当前用户需要具有创建ClickHouse表的权限，具体请参见创建ClickHouse角色章节，为用户绑定对应角色。如果当前集群未启用Kerberos认证，则无需执行本步骤。如果是MRS 3.1.0版本集群，则需要先执行：export CLICKHOUSE_SECURITY_ENABLED=true kinit 组件业务用户例如，kinit clickhouseuser。使用客户端命令连接ClickHouse。 clickhouse client --host clickhouse实例IP --user 用户名 --password --port 端口号输入用户密码在ClickHouse中创建MySQL引擎的数据库，创建成功后自动与MySQL服务器交换数据。 CREATE DATABASE mysql_db ENGINE = MySQL('RDS服务MySQL数据库实例IP地址:MySQL数据库实例端口', 'MySQL数据库名', 'MySQL数据库用户名', 'MySQL数据库用户名密码'); 切换到新建的数据库mysql_db，并查询表数据。 USE mysql_db; 在ClickHouse中查询MySQL数据库表数据。 SELECT * FROM mysql_table; ┌─int_id─┬─float─┐ │ 1 │ 2 │ └─────┴──── ┘ 新增插入数据后也可以正常进行查询。 INSERT INTO mysql_table VALUES (3,4); SELECT * FROM mysql_table; ┌─int_id─┬─float─┐ │ 1 │ 2 │ │ 3 │ 4 │ └─────┴──── ┘

MAPREDUCE服务 MRS ClickHouse数据导入

MAPREDUCE服务 MRS-使用Loader导入数据至MRS集群:前提条件

前提条件创建或获取该任务中创建Loader作业的业务用户和密码。确保用户已授权访问作业执行时操作的HDFS/OBS目录、HBase表和数据。获取外部数据源（SFTP服务器或关系型数据库）使用的用户和密码。检查磁盘空间，确保没有出现告警且余量满足导入、导出数据的大小。使用Loader从SFTP、FTP和HDFS/OBS导入数据时，确保外部数据源的输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。如果设置的任务需要使用指定Yarn队列功能，该用户需要已授权有相关Yarn队列的权限。设置任务的用户需要获取该任务的执行权限，并获取该任务对应的连接的使用权限。

MAPREDUCE服务 MRS 创建Loader数据导入作业

数据仓库服务 GAUSSDB(DWS)-执行创建OBS外表的SQL语句时，提示Access Denied:原因分析

原因分析创建OBS外表语句中的访问密钥AK和SK错误，会出现如下所示的错误信息： 1 ERROR: Fail to connect OBS in node:cn_5001 with error code: AccessDenied 账户OBS权限不足，对OBS桶没有读、写权限，会出现如下所示的错误信息： 1 dn_6001_6002: Datanode 'dn_6001_6002' fail to read OBS object bucket:'obs-bucket-name' key:'xxx/xxx/xxx.csv' with OBS error code:AccessDenied message: Access Denied 默认情况下，您不具备访问其他账号的OBS数据的权限，此外， IAM 用户（相当于子用户）也不具备访问其所属账号的OBS数据的权限。

数据仓库服务 GAUSSDB(DWS) 数据导入/导出

数据仓库服务 GAUSSDB(DWS)-执行创建OBS外表的SQL语句时，提示Access Denied:处理方法

处理方法创建OBS外表语句中的访问密钥AK和SK错误请获取正确的访问密钥AK和SK，写入创建OBS外表的SQL语句中。获取访问密钥的步骤如下：登录 GaussDB (DWS)管理控制台。将鼠标移至右上角的用户名，单击“我的凭证”。进入“我的凭证”后，在左侧导航树单击“访问密钥”。在访问密钥页面，可以查看已有的访问密钥ID（即AK）。如果要同时获取AK和SK，单击“新增访问密钥”创建并下载访问密钥。账户OBS权限不足，对OBS桶没有读、写权限您必须给指定的用户授予所需的OBS访问权限：通过OBS外表导入数据到GaussDB(DWS)时，执行导入操作的用户必须具备数据源文件所在的OBS桶和对象的读取权限。通过OBS外表导出数据时，执行导出操作的用户必须具备数据导出路径所在的OBS桶和对象的读取和写入权限。有关配置OBS权限的具体操作，请参见《对象存储服务控制台指南》中的配置桶ACL和“配置对象ACL”章节。

数据仓库服务 GAUSSDB(DWS) 数据导入/导出

MAPREDUCE服务 MRS-使用Loader导入数据:前提条件

前提条件创建或获取该任务中创建Loader作业的业务用户和密码。确保用户已授权访问作业执行时操作的HDFS/OBS目录、HBase表和数据。获取外部数据源（SFTP服务器或关系型数据库）使用的用户和密码。检查磁盘空间，确保没有出现告警且余量满足导入、导出数据的大小。使用Loader从SFTP、FTP和HDFS/OBS导入数据时，确保外部数据源的输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。如果设置的任务需要使用指定Yarn队列功能，该用户需要已授权有相关Yarn队列的权限。设置任务的用户需要获取该任务的执行权限，并获取该任务对应的连接的使用权限。

MAPREDUCE服务 MRS 数据导入

表格存储服务 CLOUDTABLE-Broker Load:相关系统配置

相关系统配置 FE配置。下面几个配置属于Broker load的系统级别配置，也就是作用于所有Broker load导入任务的配置。主要通过修改FE配置项来调整配置值。 max_bytes_per_broker_scanner/max_broker_concurrency max_bytes_per_broker_scanner配置限制了单个BE处理的数据量的最大值。max_broker_concurrency配置限制了一个作业的最大的导入并发数。最小处理的数据量（默认64M），最大并发数，源文件的大小和当前集群BE的个数共同决定了本次导入的并发数。本次导入并发数=Math.min(源文件大小/最小处理量（默认64M），最大并发数，当前BE节点个数)。本次导入单个BE的处理量=源文件大小/本次导入的并发数。通常一个导入作业支持的最大数据量为max_bytes_per_broker_scanner*BE节点数。如果需要导入更大数据量，则需要适当调整max_bytes_per_broker_scanner参数的大小。默认配置：参数名：max_broker_concurrency，默认10。参数名：max_bytes_per_broker_scanner，默认3G，单位bytes。

表格存储服务 CLOUDTABLE 批量数据导入

表格存储服务 CLOUDTABLE-Broker Load:作业调度

作业调度系统会限制一个集群内正在运行的Broker Load作业数量，以防止同时运行过多的Load作业。首先，FE的配置参数：desired_max_waiting_jobs会限制一个集群内未开始或正在运行（作业状态为PENDING或LOADING）的Broker Load作业数量。默认为100。如果超过这个阈值，新提交的作业将会被直接拒绝。一个Broker Load作业会被分为pending task和loading task阶段。其中pending task负责获取导入文件的信息，而loading task会发送给BE执行具体的导入任务。 FE的配置参数async_pending_load_task_pool_size用于限制同时运行的pending task的任务数量。也相当于控制了实际正在运行的导入任务数量。该参数默认为10。也就是说，假设用户提交了100个Load作业，同时只会有10个作业会进入LOADING状态开始执行，而其他作业处于PENDING等待状态。 FE的配置参数async_loading_load_task_pool_size用于限制同时运行的loading task的任务数量。一个Broker Load作业会有1 pending task和多个loading task（等于LOAD语句中DATA INFILE子句的个数）。所以async_loading_load_task_pool_size应该大于等于async_pending_load_task_pool_size。

表格存储服务 CLOUDTABLE 批量数据导入

表格存储服务 CLOUDTABLE-Broker Load:基本原理

基本原理用户在提交导入任务后，FE会生成对应的Plan并根据目前BE的个数和文件的大小，将Plan分给多个BE执行，每个BE执行一部分导入数据。 BE在执行的过程中会从Broker拉取数据，在对数据transform之后将数据导入系统。所有BE均完成导入，由FE最终决定导入是否成功。 + | 1. user create broker load v +----+----+ | | | FE | | | +----+----+ | | 2. BE etl and load the data +--------------------------+ | | | +---v---+ +--v----+ +---v---+ | | | | | | | BE | | BE | | BE | | | | | | | +---+-^-+ +---+-^-+ +--+-^--+ | | | | | | | | | | | | 3. pull data from broker +---v-+-+ +---v-+-+ +--v-+--+ | | | | | | |Broker | |Broker | |Broker | | | | | | | +---+-^-+ +---+-^-+ +---+-^-+ | | | | | | +---v-+-----------v-+----------v-+-+ | HDFS/BOS/AFS cluster | | | +----------------------------------+

表格存储服务 CLOUDTABLE 批量数据导入

表格存储服务 CLOUDTABLE-Broker Load:开始导入

开始导入下面我们通过几个实际的场景示例来看Broker Load的使用。数据样例： '100','101','102','103','104','105',100.00,100.01,100.02,'100',200,100.08,2022-04-01 '101','102','103','104','105','105',100.00,100.01,100.02,'100',200,100.08,2022-04-02 '102','103','104','105','106','105',100.00,100.01,100.02,'100',200,100.08,2022-04-03 准备工作：在本地创建示例数据文件source_text.txt，并上传至hdfs的/tmp/。在hive中创建ods_source表。 CREATE TABLE `ods_source`( `id` string, `store_id` string, `company_id` string, `tower_id` string, `commodity_id` string, `commodity_name` string, `commodity_price` double, `member_price` double, `cost_price` double, `unit` string, `quantity` string, `actual_price` double, `day ` string ) row format delimited fields terminated by ',' lines terminated by '\n' stored as textfile; 将hdfs创建的txt文件导入到ods_source表。 load data inpath '/tmp/source_text.txt' into table ods_source;

表格存储服务 CLOUDTABLE 批量数据导入

MAPREDUCE服务 MRS-概述:简介

简介 Loader是实现MRS与外部数据源如关系型数据库、SFTP服务器、FTP服务器之间交换数据和文件的ETL工具，支持将数据或文件从关系型数据库或文件系统导入到MRS服务中。 Loader支持如下数据导入方式：从关系型数据库导入数据到HDFS/OBS。从关系型数据库导入数据到HBase。从关系型数据库导入数据到Phoenix表。从关系型数据库导入数据到Hive表。从SFTP服务器导入数据到HDFS/OBS。从SFTP服务器导入数据到HBase。从SFTP服务器导入数据到Phoenix表。从SFTP服务器导入数据到Hive表。从FTP服务器导入数据到HDFS/OBS。从FTP服务器导入数据到HBase。从FTP服务器导入数据到Phoenix表。从FTP服务器导入数据到Hive表。从同一集群内HDFS/OBS导入数据到HBase。 MRS与外部数据源交换数据和文件时需要连接数据源。系统提供以下连接器，用于配置不同类型数据源的连接参数： generic-jdbc-connector：关系型数据库连接器。 ftp-connector：FTP数据源连接器。 hdfs-connector：HDFS数据源连接器。 oracle-connector：Oracle数据库专用连接器，使用row_id作为分区列，相对generic-jdbc-connector来说，Map任务分区更均匀，并且不依赖分区列是否有创建索引。 mysql-fastpath-connector：MYSQL数据库专用连接器，使用MYSQL的mysqldump和mysqlimport工具进行数据的导入导出，相对generic-jdbc-connector来说，导入导出速度更快。 sftp-connector：SFTP数据源连接器。 oracle-partition-connector：支持Oracle分区特性的连接器，专门对Oracle分区表的导入导出进行优化。使用FTP数据源连接器时不加密数据，可能存在安全风险，建议使用SFTP数据源连接器。建议将SFTP服务器、FTP服务器和数据库服务器与Loader部署在独立的子网中，以保障数据安全地导入。与关系数据库连接时，可以选择通用数据库连接器（generic-jdbc-connector）或者专用数据库连接器（oracle-connector、oracle-partition-connector、mysql-fastpath-connector），专用数据库连接器特别针对具体数据库类型进行优化，相对通用数据库连接器来说，导出、导入速度更快。使用mysql-fastpath-connector时，要求在NodeManager节点上有MySQL的mysqldump和mysqlimport命令，并且此两个命令所属MySQL客户端版本与MySQL服务器版本兼容，如果没有这两个命令或版本不兼容，请参考http://dev.mysql.com/doc/refman/5.7/en/linux-installation-rpm.html，安装MySQL client applications and tools。使用oracle-connector时，要求给连接用户赋予如下系统表或者视图的select权限： dba_tab_partitions、dba_constraints、dba_tables 、dba_segments 、v$version、dba_objects、v$instance、SYS_CONTEXT函数、dba_extents、 dba_tab_subpartitions。使用oracle-partition-connector时，要求给连接用户赋予如下系统表的select权限：dba_objects、dba_extents。

MAPREDUCE服务 MRS 数据导入

数据管理服务 DAS-数据导出:使用须知

使用须知如果导出数据时未勾选“生成单表文件”，则导出的数据文件后缀为“.zip”格式，此格式的数据文件暂不支持直接导入，需要解压后才可再次导入。如果导出数据时勾选了“生成单表文件”，则导出的数据文件为每个单表的数据文件（“.sql”或者“.csv”格式），该情况下导出的数据文件可直接再次导入。如果导出的MySQL 8.0实例表数量超过10万（5.7和5.6版本超过1万）时，使用导出数据库功能会报错表数量过多，无法导出数据。此时请使用导出SQL结果集功能。

数据管理服务 DAS 数据导入和导出

云搜索服务 CSS-ES-Hadoop导数据时报"Could not write all entries"异常:解决方案

解决方案建议根据实际情况调整客户端的并发写入请求数（调整到一个合适的阈值），另外被rejected的http请求ES-Hadoop是有重试机制的，可修改以下参数: “es.batch.write.retry.count”：默认重试3次。 “es.batch.write.retry.wait”：每次重试等待时间10s。如果对查询的实时性级别要求不高的话，可以调整下分片刷新的时间（默认是每秒刷新一次），提高写入速度。 PUT /my_logs { "settings": { "refresh_interval": "30s" } }

云搜索服务 CSS 数据导入导出类

MAPREDUCE服务 MRS-配置ClickHouse对接OBS源文件:使用S3表函数

使用S3表函数登录主 OMS 节点。执行以下命令获取OBS内的存储数据。 select * from S3(path, [ak, sk,] format, structure, [compression]) path：访问域名 /OBS文件路径，登录OBS管理控制台，在左侧导航栏单击“并行文件系统”，在“并行文件系统”页面单击对应的文件系统名称，在“文件”页面单击文件名称，文件“链接”即path路径，如图1所示。图1 文件路径 ak：参数可选，具备访问OBS权限的ak。 sk：参数可选，具备访问OBS权限的sk。 format ：文件的格式。 structure：表的结构。 compression：参数可选，压缩类型。

MAPREDUCE服务 MRS ClickHouse数据导入

MAPREDUCE服务 MRS-配置ClickHouse对接RDS MySQL数据库:ClickHouse通过MySQL引擎对接RDS服务

ClickHouse通过MySQL引擎对接RDS服务 MySQL引擎用于将远程的MySQL服务器中的表映射到ClickHouse中，并允许您对表进行INSERT和SELECT查询，以方便您在ClickHouse与MySQL之间进行数据交换。 MySQL引擎使用语法： CREATE DATABASE [IF NOT EXISTS] db_name [ON CLUSTER cluster] ENGINE = MySQL('host:port', ['database' | database], 'user', 'password') MySQL数据库引擎参数说明： host:port ：RDS服务MySQL数据库实例IP地址和端口。 database ：RDS服务MySQL数据库名。 user ：RDS服务MySQL数据库用户名。 password：RDS服务MySQL数据库用户密码，命令中如果携带认证密码信息可能存在安全风险，在执行命令前建议关闭系统的history命令记录功能，避免信息泄露。 MySQL引擎使用示例：连接到RDS服务的MySQL数据库。详细操作可以参考RDS服务MySQL实例连接。在MySQL数据库上创建表，并插入数据。创建表mysql_table： CREATE TABLE `mysql_table` ( `int_id` INT NOT NULL AUTO_INCREMENT, `float` FLOAT NOT NULL, PRIMARY KEY (`int_id`)); 插入表数据： insert into mysql_table (`int_id`, `float`) VALUES (1,2); 登录ClickHouse客户端安装节点。执行以下命令，切换到客户端安装目录。 cd /opt/client 执行以下命令配置环境变量。 source bigdata_env 如果当前集群已启用Kerberos认证，执行以下命令认证当前用户，当前用户需要具有创建ClickHouse表的权限，具体请参见ClickHouse用户及权限管理章节，为用户绑定对应角色。如果当前集群未启用Kerberos认证，则无需执行本步骤。如果是MRS 3.1.0版本集群，则需要先执行：export CLICKHOUSE_SECURITY_ENABLED=true kinit 组件业务用户例如，kinit clickhouseuser。使用客户端命令连接ClickHouse。 clickhouse client --host clickhouse实例IP --user 用户名 --password --port 端口号输入用户密码在ClickHouse中创建MySQL引擎的数据库，创建成功后自动与MySQL服务器交换数据。 CREATE DATABASE mysql_db ENGINE = MySQL('RDS服务MySQL数据库实例IP地址:MySQL数据库实例端口', 'MySQL数据库名', 'MySQL数据库用户名', 'MySQL数据库用户名密码'); 切换到新建的数据库mysql_db，并查询表数据。 USE mysql_db; 在ClickHouse中查询MySQL数据库表数据。 SELECT * FROM mysql_table; ┌─int_id─┬─float─┐ │ 1 │ 2 │ └─────┴──── ┘ 新增插入数据后也可以正常进行查询。 INSERT INTO mysql_table VALUES (3,4); SELECT * FROM mysql_table; ┌─int_id─┬─float─┐ │ 1 │ 2 │ │ 3 │ 4 │ └─────┴──── ┘

MAPREDUCE服务 MRS ClickHouse数据导入

云服务器内容精选

数据导入

7*24

备案

专业服务

退订

建议反馈

售前咨询热线