MAPREDUCE服务 MRS-华为云

MAPREDUCE服务 MRS-配置AM失败重试次数:配置描述

配置描述参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面，在搜索框中输入表1中参数名称。表1 参数说明参数描述默认值 yarn.resourcemanager.am.max-attempts ApplicationMaster重试次数，增加重试次数，可以防止资源不足导致的ApplicationMaster启动失败问题。适用于所有ApplicationMaster的全局设置。每个ApplicationMaster都可以使用API设置一个单独的最大尝试次数，但这个次数不能大于全局的最大次数。如果大于，ResourceManager将会覆写这个单独的最大尝试次数。以允许至少一次重试。取值范围大于等于1。 5

MAPREDUCE服务 MRS

MAPREDUCE服务 MRS-配置HBase数据压缩格式和编码:操作场景

操作场景 HBase可以通过对HFile中的data block编码，减少Key-Value中Key的重复部分，从而减少空间的使用。目前对data block的编码方式有：NONE、PREFIX、DIFF、FAST_DIFF和ROW_INDEX_V1，其中NONE表示不使用编码。另外，HBase还支持使用压缩算法对HFile文件进行压缩，默认支持的压缩算法有：NONE、GZ、SNAPPY和ZSTD，其中NONE表示HFile不压缩。这两种方式都是作用在HBase的列簇上，可以同时使用，也可以单独使用。

MAPREDUCE服务 MRS HBase数据操作

MAPREDUCE服务 MRS-Spark SQL无法查询到Parquet类型的Hive表的新插入数据:回答

回答由于Spark存在一个机制，为了提高性能会缓存Parquet的元数据信息。当通过Hive或其他方式更新了Parquet表时，缓存的元数据信息未更新，导致Spark SQL查询不到新插入的数据。对于存储类型为Parquet的Hive分区表，在执行插入数据操作后，如果分区信息未改变，则缓存的元数据信息未更新，导致Spark SQL查询不到新插入的数据。解决措施：在使用Spark SQL查询之前，需执行Refresh操作更新元数据信息。 REFRESH TABLE table_name; table_name为刷新的表名，该表必须存在，否则会出错。执行查询语句时，即可获取到最新插入的数据。

MAPREDUCE服务 MRS SQL和DataFrame

MAPREDUCE服务 MRS-Flume业务模型配置说明:Interceptors

Interceptors Flume的拦截器（Interceptor）支持在数据传输过程中修改或丢弃传输的基本单元Event。用户可以通过在配置中指定Flume内建拦截器的类名列表，也可以开发自定义的拦截器来实现Event的修改或丢弃。Flume内建支持的拦截器如下表所示，本章节会选取一个较为复杂的作为示例。其余的用户可以根据需要自行配置使用。官网参考：http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html 拦截器用在Flume的Source、Channel之间，大部分的Source都带有Interceptor参数。用户可以依据需要配置。 Flume支持一个Source配置多个拦截器，各拦截器名称用空格分开。指定拦截器的顺序就是它们被调用的顺序。使用拦截器在Header中插入的内容，都可以在Sink中读取并使用。表5 Flume内建支持的拦截器类型拦截器类型简要描述 Timestamp Interceptor 该拦截器会在Event的Header中插入一个时间戳。 Host Interceptor 该拦截器会在Event的Header中插入当前Agent所在节点的IP或主机名。 Remove Header Interceptor 该拦截器会依据Header中包含的符合正则匹配的字符串，丢弃掉对应的Event。 UUID Interceptor 该拦截器会为每个Event的Header生成一个UUID字符串。 Search and Replace Interceptor 该拦截器基于Java正则表达式提供简单的基于字符串的搜索和替换功能。与Java Matcher.replaceAll() 的规则相同。 Regex Filtering Interceptor 该拦截器通过将Event的Body体解释为文本文件，与配置的正则表达式进行匹配来选择性的过滤Event。提供的正则表达式可用于排除或包含事件。 Regex Extractor Interceptor 该拦截器使用正则表达式抽取原始events中的内容，并将该内容加入events的header中。下面以Regex Filtering Interceptor 为例说明Interceptor使用（其余的可参考官网配置）：表6 Regex Filtering Interceptor配置参数说明选项名称默认值描述 type - 组件类型名称，必须写为regex_filter。 regex - 用于匹配事件的正则表达式。 excludeEvents false 默认收集匹配到的Event。设置为true，则会删除匹配的Event，保留不匹配的。配置示例（为了方便观察，此模型使用了netcat tcp作为Source源，logger作为Sink）。配置好如下参数后，在Linux的配置的主机节点上执行Linux命令“telnet 主机名或IP 44444”，并任意敲入符合正则和不符合正则的字符串。会在日志中观察到，只有匹配到的字符串被传输了。 #define the source、channel、sink server.sources = r1 server.channels = c1 server.sinks = k1 #config the source server.sources.r1.type = netcat server.sources.r1.bind = ${主机IP} server.sources.r1.port = 44444 server.sources.r1.interceptors= i1 server.sources.r1.interceptors.i1.type= regex_filter server.sources.r1.interceptors.i1.regex= (flume)|(myflume) server.sources.r1.interceptors.i1.excludeEvents= false server.sources.r1.channels = c1 #config the channel server.channels.c1.type = memory server.channels.c1.capacity = 1000 server.channels.c1.transactionCapacity = 100 #config the sink server.sinks.k1.type = logger server.sinks.k1.channel = c1

MAPREDUCE服务 MRS 使用Flume

MAPREDUCE服务 MRS-Flume业务模型配置说明:Channel Selector

Channel Selector Channel Selector可以允许一个Source对接多个Channel，通过选择不同的Selector类型来将Source的数据进行分流或者复制，目前Flume提供的Channel Selector有两种：Replicating和Multiplexing。 Replicating：表示Source的数据同步发送给所有Channel。 Multiplexing：表示根据Event中的Header的指定字段的值来进行判断，从而选择相应的Channel进行发送，从而起到根据业务类型进行分流的目的。 Replicating配置样例： client.sources = kafkasource client.channels = channel1 channel2 client.sources.kafkasource.type = org.apache.flume.source.kafka.KafkaSource client.sources.kafkasource.kafka.topics = topic1,topic2 client.sources.kafkasource.kafka.consumer.group.id = flume client.sources.kafkasource.kafka.bootstrap.servers = 10.69.112.108:21007 client.sources.kafkasource.kafka.security.protocol = SASL_PLAINTEXT client.sources.kafkasource.batchDurationMillis = 1000 client.sources.kafkasource.batchSize = 800 client.sources.kafkasource.channels = channel1 channel2 client.sources.kafkasource.selector.type = replicating client.sources.kafkasource.selector.optional = channel2 表1 Replicating配置样例参数说明选项名称默认值描述 Selector.type replicating Selector类型，应配置为replicating Selector.optional - 可选Channel，可以配置为列表 Multiplexing配置样例： client.sources = kafkasource client.channels = channel1 channel2 client.sources.kafkasource.type = org.apache.flume.source.kafka.KafkaSource client.sources.kafkasource.kafka.topics = topic1,topic2 client.sources.kafkasource.kafka.consumer.group.id = flume client.sources.kafkasource.kafka.bootstrap.servers = 10.69.112.108:21007 client.sources.kafkasource.kafka.security.protocol = SASL_PLAINTEXT client.sources.kafkasource.batchDurationMillis = 1000 client.sources.kafkasource.batchSize = 800 client.sources.kafkasource.channels = channel1 channel2 client.sources.kafkasource.selector.type = multiplexing client.sources.kafkasource.selector.header = myheader client.sources.kafkasource.selector.mapping.topic1 = channel1 client.sources.kafkasource.selector.mapping.topic2 = channel2 client.sources.kafkasource.selector.default = channel1 表2 Multiplexing配置样例参数说明选项名称默认值描述 Selector.type replicating Selector类型，应配置为multiplexing Selector.header Flume.selector.header - Selector.default - - Selector.mapping.* - - Multiplexing类型的Selector的样例中，选择Event中Header名称为topic的字段来进行判断，当Header中topic字段的值为topic1时，向channel1发送该Event，当Header中topic字段的值为topic2时，向channel2发送该Event。这种Selector需要借助Source中Event的特定Header来进行Channel的选择，需要根据业务场景选择合理的Header来进行数据分流。

MAPREDUCE服务 MRS 使用Flume

MAPREDUCE服务 MRS-Flume业务模型配置说明:模块间性能

模块间性能根据模块间性能对比，可以看到对于前端是SpoolDir Source的场景下，Kafka Sink和HDFS Sink都能满足吞吐量要求，但是HBase Sink由于自身写入性能较低的原因，会成为性能瓶颈，会导致数据都积压在Channel中。但是如果有必须使用HBase Sink或者其他性能容易成为瓶颈的Sink的场景时，可以选择使用Channel Selector或者Sink Group来满足性能要求。

MAPREDUCE服务 MRS 使用Flume

MAPREDUCE服务 MRS-Flume业务模型配置说明:业务模型配置指导

业务模型配置指导本章节适用于 MRS 3.x及之后版本。本任务旨在提供Flume常用模块的性能差异，用于指导用户进行合理的Flume业务配置，避免出现前端Source和后端Sink性能不匹配进而导致整体业务性能不达标的场景。本任务只针对于单通道的场景进行比较说明。 Flume业务配置及模块选择过程中，一般要求Sink的极限吞吐量需要大于Source的极限吞吐量，否则在极限负载的场景下，Source往Channel的写入速度大于Sink从Channel取出的速度，从而导致Channel频繁被写满，进而影响性能表现。 Avro Source和Avro Sink一般都是成对出现，用于多个Flume Agent间进行数据中转，因此一般场景下Avro Source和Avro Sink都不会成为性能瓶颈。

MAPREDUCE服务 MRS 使用Flume

MAPREDUCE服务 MRS-CSV文件输入:参数说明

参数说明表1 算子参数说明参数含义类型是否必填默认值分隔符 CS V文件的列分隔符，用于分隔每行的数据。 string 是 , 换行符用户根据数据实际情况，填写字符串作为换行符。支持任何字符串。默认使用操作系统的换行符。 string 否 \n 文件名是否作为字段自定义一个字段，以当前数据所在的文件名作为该字段值。 string 否无绝对路径配置“文件名是否作为字段”引用文件名环境，选中单选框时是带绝对路径的文件名；不选中单选框时是不带路径的文件名。 boolean 否不选中验证输入字段是否检验输入字段与值的类型匹配情况，值为“NO”，不检查；值为“YES”，检查。若不匹配则跳过该行。 enum 是 YES 输入字段配置输入字段的相关信息：位置：源文件每行被列分隔符分隔后，目标字段对应的位置，从1开始编号。字段名：配置字段名。类型：配置字段类型。数据格式：字段类型为“DATE”或“TIM”E或“TIMESTAMP”时，需指定特定时间格式，其他字段类型指定无效。时间格式如：“yyyyMMdd HH:mm:ss”。长度：配置字段长度，字段值太长则按配置的长度截取，类型为“CHAR”时实际长度不足则空格补齐，类型为“VARCHAR”时实际长度不足则不补齐。 map 是无

MAPREDUCE服务 MRS

MAPREDUCE服务 MRS-ClickHouse输出:样例

样例通过“CSV文件输入”算子，生成十二个字段。源文件如下：创建ClickHouse表的语句如下： CREATE TABLE IF NOT EXISTS testck4 ON CLUSTER default_cluster( a Int32, b VARCHAR(100) NOT NULL, c char(100), d DateTime, e DateTime, f DateTime, g smallint, h bigint, l Float32, j Float64, k decimal(10,2), m boolean ) ENGINE = ReplicatedMergeTree('/clickhouse/tables/{shard}/default/testck4', '{replica}') PARTITION BY toYYYYMM(d)ORDER BY a; 配置“ClickHouse输出”算子，如下图：作业执行成功后，查看testck4表中数据：

MAPREDUCE服务 MRS 输出算子

MAPREDUCE服务 MRS-配置HBase主备集群数据自动备份:注意事项

注意事项当主集群关闭时，此工具将从ZooKeeper节点（RS znode）获得WAL的处理进度以及WAL的处理队列，并将未复制的队列复制到备集群中。每个主集群的RegionServer在备集群ZooKeeper上的replication节点下都有自己的znode。它包含每个对等集群的一个znode。当RegionServer故障时，主集群的每个RegionServer都会通过watcher收到通知，并尝试锁定故障RegionServer的znode，包含它的队列。成功创建的RegionServer会将所有队列转移到自己队列的znode下。队列传输后，它们将从旧位置删除。在主集群关闭期间，ReplicationSyncUp工具将使用来自ZooKeeper节点的信息同步主备集群的数据，并且RegionServer znode的wals将被移动到备集群下。

MAPREDUCE服务 MRS HBase运维管理

MAPREDUCE服务 MRS-配置HBase主备集群数据自动备份:使用ReplicationSyncUp工具

使用ReplicationSyncUp工具在主集群hbase shell中输入如下命令使用： hbase org.apache.hadoop.hbase.replication.regionserver.ReplicationSyncUp -Dreplication.sleep.before.failover=1 replication.sleep.before.failover是指在RegionServer启动失败时备份其剩余数据前需要的休眠时间。由于30秒（默认值）的睡眠时间没有任何意义，因此将其设置为1（s），使备份过程更快触发。

MAPREDUCE服务 MRS HBase运维管理

MAPREDUCE服务 MRS-配置HBase主备集群数据自动备份:前提条件

前提条件主备集群已经安装并且启动。主备集群上的时间必须一致，而且主备集群上的NTP服务必须使用同一个时间源。当主集群HBase服务关闭时，ZooKeeper和HDFS服务应该启动并运行。该工具应该由启动HBase进程的系统用户运行。如果处于安全模式，请确保备用集群的HBase系统用户具有主集群HDFS的读取权限。因为它将更新HBase系统ZooKeeper节点和HDFS文件。主集群HBase故障后，主集群的ZooKeeper，文件系统和网络依然可用。

MAPREDUCE服务 MRS HBase运维管理

MAPREDUCE服务 MRS-配置Yarn权限控制开关:配置描述

配置描述查看Yarn服务配置参数参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面，在搜索框中输入表1中参数名称。表1 参数描述参数描述默认值 yarn.acl.enable Yarn权限控制启用开关。 true yarn.webapp.filter-entity-list-by-user 严格视图启用开关，开启后，登录用户只能查看该用户有权限查看的内容。当要开启该功能时，同时需要设置参数“yarn.acl.enable”为true。说明：此参数适用于MRS 3.x及后续版本集群。 true 查看 MapReduce服务配置参数参考修改集群服务配置参数进入MapReduce服务参数“全部配置”界面，在搜索框中输入表2中参数名称。表2 参数描述参数描述默认值 mapreduce.cluster.acls.enabled MR JobHistoryServer权限控制启用开关。该参数为客户端参数，当JobHistoryServer服务端开启权限控制之后该参数生效。 true yarn.webapp.filter-entity-list-by-user MR JobHistoryServer严格视图启用开关，开启后，登录用户只能查看该用户有权限查看的内容。该参数为JobHistoryServer的服务端参数，表示JHS开启了权限控制，但是否要对某一个特定的Application进行控制，是由客户端参数：“mapreduce.cluster.acls.enabled”决定。说明：此参数适用于MRS 3.x及后续版本集群。 true 以上配置会影响restful API和shell命令结果，即以上配置开启后，restful API调用和shell命令运行所返回的内容只包含调用用户有权查看的信息。当“yarn.acl.enable”或“mapreduce.cluster.acls.enabled”设置为“false”时，即关闭Yarn或MapReduce的权限校验功能。此时任何用户都可以在Yarn或MapReduce上提交任务和查看任务信息，存在安全风险，请谨慎使用。

MAPREDUCE服务 MRS

MAPREDUCE服务 MRS-使用BulkLoad工具向HBase迁移数据

使用BulkLoad工具向HBase迁移数据 HBase的数据都是存储在HDFS中的，数据导入即是加载存放在HDFS中的数据到HBase表中。Apache HBase提供了“Import”和“ImportTsv”工具用于批量导入HBase数据。 “Import”通过“org.apache.hadoop.hbase.mapreduce.Import”方法导入已导出至HDFS中的HBase数据。 “ImportTsv”通过“org.apache.hadoop.hbase.mapreduce.ImportTsv”可将TSV格式的数据加载到HBase中。更多详细信息请参见：http://hbase.apache.org/2.2/book.html#tools。父主题：使用HBase

MAPREDUCE服务 MRS

MAPREDUCE服务 MRS-准备MySQL数据库连接的驱动:操作步骤

操作步骤 MRS 3.x之前版本：从MySQL官网下载MySQL jdbc驱动程序“mysql-connector-java-5.1.21.jar”，具体MySQL jdbc驱动程序选择参见下表。表1 版本信息 jdbc驱动程序版本 MySQL版本 Connector/J 5.1 MySQL 4.1、MySQL 5.0、MySQL 5.1、MySQL 6.0 alpha Connector/J 5.0 MySQL 4.1、MySQL 5.0 servers、distributed transaction (XA) Connector/J 3.1 MySQL 4.1、MySQL 5.0 servers、MySQL 5.0 except distributed transaction (XA) Connector/J 3.0 MySQL 3.x、MySQL 4.1 将“mysql-connector-java-5.1.21.jar”上传至MRS master 主备节点loader安装目录。针对MRS 3.x之前版本，上传至“/opt/Bigdata/MRS_XXX/install/ FusionInsight -Sqoop-1.99.7/FusionInsight-Sqoop-1.99.7/server/jdbc/” 其中“XXX”为MRS版本号，请根据实际情况修改。修改“mysql-connector-java-5.1.21.jar”包属主为“omm:wheel”。修改配置文件“jdbc.properties”。将“MYSQL”的键值修改为上传的jdbc驱动包名“mysql-connector-java-5.1.21.jar”，例如：MYSQL=mysql-connector-java-5.1.21.jar。重启Loader服务。

MAPREDUCE服务 MRS 使用Loader

云服务器内容精选

MAPREDUCE服务 MRS

7*24

备案

专业服务

退订

建议反馈

售前咨询热线