华为云用户手册

MapReduce服务 MRS-如何开发Flume第三方插件

如何开发Flume第三方插件该操作指导用户进行第三方插件二次开发。本章节适用于 MRS 3.x及之后版本。将自主研发的代码打成jar包。安装Flume服务端或者客户端，如安装目录为“/opt/flumeclient”。建立插件目录布局。进入“Flume客户端安装目录/fusionInsight-flume-*/plugins.d”路径下，使用以下命令建立目录，可根据实际业务进行命名，无固定名称： cd /opt/flumeclient/fusioninsight-flume-1.9.0/plugins.d mkdir thirdPlugin cd thirdPlugin mkdir lib libext native 显示结果如下：将第三方jar包放入“Flume客户端安装目录/fusionInsight-flume-*/plugins.d/thirdPlugin/lib”路径下，若该jar包依赖其他jar包，则将所依赖的jar包放入“Flume客户端安装目录/fusionInsight-flume-*/plugins.d/thirdPlugin/libext”文件夹中，“Flume客户端安装目录/fusionInsight-flume-*/plugins.d/thirdPlugin/native”放置本地库文件。配置“Flume客户端安装目录/fusionInsight-flume-*/conf/properties.properties”文件。具体properties.properties参数配置方法，参考配置Flume非加密传输数据采集任务和配置Flume加密传输数据采集任务对应典型场景中properties.properties文件参数列表的说明。父主题： Flume常见问题

MapReduce服务 MRS Flume常见问题
MapReduce服务 MRS-使用Flume服务端从Kafka采集日志保存到HDFS:操作场景

操作场景该任务指导用户使用Flume服务端从Kafka的Topic列表(test1)采集日志保存到HDFS上“/flume/test”目录下。本章节适用于MRS 3.x及之后版本。本配置默认集群网络环境是安全的，数据传输过程不需要启用SSL认证。如需使用加密方式，请参考配置Flume加密传输数据采集任务。该配置为只用一个Flume场景，例如：Kafka Source+Memory Channel+HDFS Sink.

MapReduce服务 MRS
MapReduce服务 MRS-Kafka常用配置参数:常用参数

常用参数表1 参数说明配置参数说明缺省值 log.dirs Kafka数据存储目录列表，以逗号分隔多个目录。 %{@auto.detect.datapart.bk.log.logs} KAFKA_HEAP_OPTS Kafka启动Broker时使用的jvm选项。建议根据业务需要进行设置。 -Xmx6G -Xms6G auto.create.topics.enable 是否自动创建Topic，若参数设置为false，发消息前需要通过命令创建Topic。 true default.replication.factor 自动创建Topic时的默认副本数。 2 monitor.preInitDelay 服务启动后，第一次健康检查的延迟时间。如果启动需要较长时间，可以通过调大参数，来完成启动。单位为毫秒。 600000

MapReduce服务 MRS
MapReduce服务 MRS-HBase JVM参数优化说明:操作步骤

操作步骤参数入口： HBase角色相关的JVM参数需要配置在安装有HBase服务的节点的“${BIGDATA_HOME}/ FusionInsight _HD_*/install/FusionInsight-HBase-2.2.3/hbase/conf/”目录下的“hbase-env.sh”文件中。每个角色都有各自的JVM参数配置变量，如表1。表1 HBase相关JVM参数配置变量变量名变量影响的角色 HBASE_OPTS 该变量中设置的参数，将影响HBase的所有角色。 SERVER_GC_OPTS 该变量中设置的参数，将影响HBase Server端的所有角色，例如：Master、RegionServer等。 CLIENT_GC_OPTS 该变量中设置的参数，将影响HBase的Client进程。 HBASE_MASTER_OPTS 该变量中设置的参数，将影响HBase的Master。 HBASE_REGIONSERVER_OPTS 该变量中设置的参数，将影响HBase的RegionServer。 HBASE_THRIFT_OPTS 该变量中设置的参数，将影响HBase的Thrift。配置方式举例： export HADOOP_NAMENODE_OPTS="-Dhadoop.security.logger=${HADOOP_SECURITY_ LOG GER:-INFO,RFAS} -Dhdfs.audit.logger=${HDFS_AUDIT_LOGGER:-INFO,NullAppender} $HADOOP_NAMENODE_OPTS"

MapReduce服务 MRS HBase性能调优
MapReduce服务 MRS-Kafka常用配置参数:超时参数

超时参数表2 Broker相关超时参数参数名称参数说明默认值影响分析 controller.socket.timeout.ms Controller连接Broker的超时时间。单位：毫秒。 30000 Controller连接Broker的超时时间，一般不需要调整。 group.max.session.timeout.ms Consumer注册时允许的最大会话超时时间。单位：毫秒。 1800000 允许Consumer配置的session.timeout.ms的最大值（不包含此值）。 group.min.session.timeout.ms Consumer注册时允许的最小会话超时时间。单位：毫秒。 6000 允许Consumer配置的session.timeout.ms的最小值（不包含此值）。 offsets.commit.timeout.ms Offset提交请求的超时时间。单位：毫秒。 5000 Offset提交时被延迟处理的最大超时时间。 replica.socket.timeout.ms 副本数据同步请求的超时时间，配置值不得小于replica.fetch.wait.max.ms。单位：毫秒。 30000 同步线程在发送同步请求之前等待通道建立的最大超时时间，要求配置大于replica.fetch.wait.max.ms。 request.timeout.ms 设置客户端发送连接请求后，等待响应的超时时间。单位：毫秒。 30000 Broker节点上的Controller、Replica线程中传入networkclient连接的超时参数，如果在超时时间内没有接收到响应，那么客户端重新发送，并在达到重试次数后返回请求失败。 transaction.max.timeout.ms 事务允许的最大超时。单位：毫秒。 900000 事务最大超时时间，如果客户端的请求时间超过该值，则Broker将在InitProducerIdRequest中返回一个错误。这样可以防止客户端超时时间过长，而导致消费者无法接收topic。 user.group.cache.timeout.sec 指定缓存中保存用户对应组信息的时间。单位：秒。 300 缓存中用户和组对应关系缓存时间，超过此时间用户信息才会再次通过id -Gn命令查询，在此期间，仅使用缓存中的用户和组对应关系。 zookeeper.connection.timeout.ms 连接ZooKeeper的超时时间。单位：毫秒。 45000 ZooKeeper连接超时时间，这个时间决定了zkclient中初次连接建立过程时允许消耗的时间，超过该时间，zkclient会主动断开。 zookeeper.session.timeout.ms ZooKeeper会话超时时间。如果Broker在此时间内未向ZooKeeper上报心跳，则被认为失效。单位：毫秒。 45000 ZooKeeper会话超时时间。作用一：这个时间结合传入的ZKURL中ZooKeeper的地址个数，ZooKeeper客户端以（sessionTimeout/传入ZooKeeper地址个数）为连接一个节点的超时时间，超过此时间未连接成功，则尝试连接下一个节点。作用二：连接建立后，一个会话的超时时间，如ZooKeeper上注册的临时节点BrokerId，当Broker被停止，则该BrokerId，会经过一个sessionTimeout才会被ZooKeeper清理。表3 Producer相关超时参数配置名称说明默认值影响分析 request.timeout.ms 指定发送消息请求的请求超时时间。单位：毫秒。 30000 请求超时时间，出现网络问题时，需调大此参数；配置过小，则容易出现Batch Expire异常。表4 Consumer相关超时参数配置名称说明默认值影响分析 connections.max.idle.ms 空闲连接的保留时间。单位：毫秒 600000 空闲连接的保留时间，连接空闲时间大于此时间，则会销毁该连接，有需要时重新创建连接。 request.timeout.ms 消费请求的超时时间。单位：毫秒。 30000 请求超时时间，请求超时会失败然后不断重试。

MapReduce服务 MRS
MapReduce服务 MRS-配置用户在具有读和执行权限的目录中创建外表:操作场景

操作场景此功能在MRS 3.x之前版本适用于Hive，Spark。在MRS3.x及后续版本适用于Hive，Spark2x。开启此功能后，允许有目录读权限和执行权限的用户和用户组创建外部表，而不必检查用户是否为该目录的属主，并且禁止外表的location目录在当前默认warehouse目录下。同时在外表授权时，禁止更改其location目录对应的权限。开启本功能之后，外表功能变化大。请充分考虑实际应用场景，再决定是否做出调整。

MapReduce服务 MRS
MapReduce服务 MRS-配置Hive读取关系型数据库数据:操作步骤

操作步骤以Hive客户端安装用户登录安装客户端的节点。执行以下命令，切换到客户端安装目录。 cd 客户端安装目录例如安装目录为“/opt/client”，则执行以下命令： cd /opt/client 执行以下命令配置环境变量。 source bigdata_env 集群认证模式是否为安全模式。是，执行以下命令进行用户认证： kinit Hive业务用户否，执行5。执行以下命令，将需要关联的关系型数据库驱动Jar包上传到HDFS目录下。 hdfs dfs -put Jar包所在目录保存Jar包的HDFS目录例如将“/opt”目录下ORACLE驱动Jar包上传到HDFS的“/tmp”目录下，则执行如下命令。 hdfs dfs -put /opt/ojdbc6.jar /tmp 按照如下示例，在Hive客户端创建关联关系型数据库的外表。如果是安全模式，建表的用户需要“ADMIN”权限，ADD JAR的路径请以实际路径为准。 -- 关联oracle linux6版本示例-- 如果是安全模式，设置admin权限 set role admin;-- 添加连接关系型数据库的驱动jar包,不同数据库有不同的驱动JARADD JAR hdfs:///tmp/ojdbc6.jar;CREATE EXTERNAL TABLE ora_test-- hive表的列需比数据库返回结果多一列用于分页查询(id STRING,rownum string)STORED BY 'com.qubitproducts.hive.storage.jdbc.JdbcStorageHandler'TBLPROPERTIES (-- 关系型数据库类型"qubit.sql.database.type" = "ORACLE",-- 通过JDBC连接关系型数据库的url（不同数据库有不同的url格式）"qubit.sql.jdbc.url" = "jdbc:oracle:thin:@//10.163.0.1:1521/mydb",-- 关系型数据库驱动类名"qubit.sql.jdbc.driver" = "oracle.jdbc.OracleDriver",-- 在关系型数据库查询的sql语句,结果将返回hive表"qubit.sql.query" = "select name from aaa",-- hive表的列与关系型数据库表的列进行匹配（可忽略）"qubit.sql.column.mapping" = "id=name",-- 关系型数据库用户"qubit.sql.dbcp.username" = "test",-- 关系型数据库密码，命令中如果携带认证密码信息可能存在安全风险，在执行命令前建议关闭系统的history命令记录功能，避免信息泄露。"qubit.sql.dbcp.password" = "xxx");

MapReduce服务 MRS 使用Hive
MapReduce服务 MRS-Hive ORC数据存储优化:操作步骤

操作步骤推荐：使用“SNAPPY”压缩，适用于压缩比和读取效率要求均衡场景。 Create table xx (col_name data_type) stored as orc tblproperties ("orc.compress"="SNAPPY"); 可用：使用“ZLIB”压缩，适用于压缩比要求较高场景。 Create table xx (col_name data_type) stored as orc tblproperties ("orc.compress"="ZLIB"); xx为具体使用的Hive表名。

MapReduce服务 MRS
MapReduce服务 MRS-Hive用户权限说明:Hive权限模型

Hive权限模型使用Hive组件，必须对Hive数据库和表（含外表和视图）拥有相应的权限。在MRS中，完整的Hive权限模型由Hive元数据权限与HDFS文件权限组成。使用数据库或表时所需要的各种权限都是Hive权限模型中的一种。 Hive元数据权限。与传统关系型数据库类似，MRS的Hive数据库包含“建表”和“查询”权限，Hive表和列包含“查询”、“插入”和“删除”权限。Hive中还包含拥有者权限“OWNERSHIP”和“Hive管理员权限”。 Hive数据文件权限，即HDFS文件权限。 Hive的数据库、表对应的文件保存在HDFS中。默认创建的数据库或表保存在HDFS目录“/user/hive/warehouse”。系统自动以数据库名称和数据库中表的名称创建子目录。访问数据库或者表，需要在HDFS中拥有对应文件的权限，包含“读”、“写”和“执行”权限。用户对Hive数据库或表执行不同操作时，需要关联不同的元数据权限与HDFS文件权限。例如，对Hive数据表执行查询操作，需要关联元数据权限“查询”，以及HDFS文件权限“读”和“写”。使用Manager界面图形化的角色管理功能来管理Hive数据库和表的权限，只需要设置元数据权限，系统会自动关联HDFS文件权限，减少界面操作，提高效率。

MapReduce服务 MRS
MapReduce服务 MRS-调整Yarn任务抢占机制:操作步骤

操作步骤参数入口：参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面，在搜索框中输入参数名称。表1 Preemption配置参数描述默认值 yarn.resourcemanager.scheduler.monitor.enable 根据“yarn.resourcemanager.scheduler.monitor.policies”中的策略，启用新的scheduler监控。设置为“true”表示启用监控，并根据scheduler的信息，启动抢占的功能。设置为“false”表示不启用。 false yarn.resourcemanager.scheduler.monitor.policies 设置与scheduler配合的“SchedulingEditPolicy”的类的清单。 org.apache.hadoop.yarn.server.resourcemanager.monitor.capacity.ProportionalCapacityPreemptionPolicy yarn.resourcemanager.monitor.capacity.preemption.observe_only 设置为“true”，则执行策略，但是不对集群资源进程抢占操作。设置为“false”，则执行策略，且根据策略启用集群资源抢占的功能。 false yarn.resourcemanager.monitor.capacity.preemption.monitoring_interval 根据策略监控的时间间隔，单位为毫秒。如果将该参数设置为更大的值，容量检测将不那么频繁地运行。 3000 yarn.resourcemanager.monitor.capacity.preemption.max_wait_before_kill 应用发送抢占需求到停止container（释放资源）的时间间隔，单位为毫秒。取值范围大于等于0。默认情况下，若ApplicationMaster15秒内没有终止container，ResourceManager等待15秒后会强制终止。 15000 yarn.resourcemanager.monitor.capacity.preemption.total_preemption_per_round 在一个周期内能够抢占资源的最大的比例。可使用这个值来限制从集群回收容器的速度。计算出了期望的总抢占值之后，策略会伸缩回这个限制。 0.1 yarn.resourcemanager.monitor.capacity.preemption.max_ignored_over_capacity 集群中资源总量乘以此配置项的值加上某个队列（例如队列A）原有的资源量为资源抢占盲区。当队列A中的任务实际使用的资源超过该抢占盲区时，超过部分的资源将会被抢占。取值范围：0~1。说明：设置的值越小越有利于资源抢占。 0 yarn.resourcemanager.monitor.capacity.preemption.natural_termination_factor 设置抢占目标，Container只会抢占所配置比例的资源。示例，如果设置为0.5，则在5*“yarn.resourcemanager.monitor.capacity.preemption.max_wait_before_kill”的时间内，任务会回收所抢占资源的近95%。即接连抢占5次，每次抢占待抢占资源的0.5，呈几何收敛，每次的时间间隔为“yarn.resourcemanager.monitor.capacity.preemption.max_wait_before_kill”。取值范围：0~1。 1

MapReduce服务 MRS Yarn性能调优
MapReduce服务 MRS-调整Yarn任务抢占机制:操作场景

操作场景抢占任务可精简队列中的job运行并提高资源利用率，由ResourceManager的capacity scheduler实现，其简易流程如下：假设存在两个队列A和B。其中队列A的capacity为25%，队列B的capacity为75%。初始状态下，任务1发送给队列A，此任务需要75%的集群资源。之后任务2发送到了队列B，此任务需要50%的集群资源。任务1将会使用队列A提供的25%的集群资源，并从队列B获取的50%的集群资源。队列B保留25%的集群资源。启用抢占任务特性，则任务1使用的资源将会被抢占。队列B会从队列A中获取25%的集群资源以满足任务2的执行。当任务2完成后，集群中存在足够的资源时，任务1将重新开始执行。

MapReduce服务 MRS Yarn性能调优
MapReduce服务 MRS-配置AM失败重试次数:配置描述

配置描述参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面，在搜索框中输入表1中参数名称。表1 参数说明参数描述默认值 yarn.resourcemanager.am.max-attempts ApplicationMaster重试次数，增加重试次数，可以防止资源不足导致的ApplicationMaster启动失败问题。适用于所有ApplicationMaster的全局设置。每个ApplicationMaster都可以使用API设置一个单独的最大尝试次数，但这个次数不能大于全局的最大次数。如果大于，ResourceManager将会覆写这个单独的最大尝试次数。以允许至少一次重试。取值范围大于等于1。 5

MapReduce服务 MRS Yarn企业级能力增强
MapReduce服务 MRS-更改NodeManager的存储目录:操作场景

操作场景 Yarn NodeManager定义的存储目录不正确或Yarn的存储规划变化时，MRS集群管理员需要在Manager中修改NodeManager的存储目录，以保证Yarn正常工作。NodeManager的存储目录包含本地存放目录“yarn.nodemanager.local-dirs”和日志目录“yarn.nodemanager.log-dirs”。适用于以下场景：更改NodeManager角色的存储目录，所有NodeManager实例的存储目录将同步修改。更改NodeManager单个实例的存储目录，只对单个实例生效，其他节点NodeManager实例存储目录不变。

MapReduce服务 MRS
MapReduce服务 MRS-配置MapReduce任务日志归档和清理机制:配置场景

配置场景执行一个MapReduce应用会产生两种类型日志文件：作业日志和任务日志。作业日志由MRApplicationMaster产生，详细记录了作业启动时间、运行时间，每个任务启动时间、运行时间、Counter值等信息。此日志内容被HistoryServer解析以后用于查看作业执行的详细信息。任务日志记录了每个运行在Container中的任务输出的日志信息。默认情况下，任务日志只会存放在各NodeManager的本地磁盘上。打开日志聚合功能后，NodeManager会在作业运行完成后将本地的任务日志进行合并，写入到HDFS中。由于MapReduce的作业日志和任务日志（聚合功能开启的情况下）都保存在HDFS上。对于计算任务量大的集群，如果不进行合理的配置对日志文件进行定期归档和删除，日志文件将占用HDFS大量内存空间，增加集群负载。日志归档是通过Hadoop Archives功能实现的，Hadoop Archives启动的并行归档任务数（Map数）与待归档的日志文件总大小有关。计算公式为：并行归档任务数=待归档的日志文件总大小/归档文件大小。

MapReduce服务 MRS 使用MapReduce
MapReduce服务 MRS-快速使用Kafka生产消费数据:前提条件

前提条件使用Kafka客户端时：已安装客户端，例如安装目录为“/opt/client”，以下操作的客户端目录只是举例，请根据实际安装目录修改。使用KafkaUI时：已创建具有KafkaUI页面访问权限的用户，如需在页面上进行相关操作，例如创建Topic，需同时授予用户相关权限，请参考Kafka用户权限说明。第一次访问Manager和KafkaUI，需要在浏览器中添加站点信任以继续访问KafkaUI。

MapReduce服务 MRS 使用Kafka
MapReduce服务 MRS-Hue常用配置参数:参数说明

参数说明表1 Hue常用参数配置参数说明缺省值范围 HANDLER_AC CES SLOG_LEVEL 表示Hue的访问日志级别。 DEBUG ERROR WARN INFO DEBUG HANDLER_AUDITSLOG_LEVEL 表示Hue的审计日志级别。 DEBUG ERROR WARN INFO DEBUG HANDLER_ERRORLOG_LEVEL 表示Hue的错误日志级别。 ERROR ERROR WARN INFO DEBUG HANDLER_LOGFILE_LEVEL 表示Hue的运行日志级别。 INFO ERROR WARN INFO DEBUG HANDLER_LOGFILE_MAXBACKUPINDEX 表示Hue日志文件最大个数。 20 1～999 HANDLER_LOGFILE_SIZE 表示Hue日志文件最大大小。 5MB -

MapReduce服务 MRS 使用Hue（MRS 3.x之前版本）
MapReduce服务 MRS-使用Hive CBO功能优化查询效率:操作步骤

操作步骤在Manager界面Hive组件的配置中搜索“hive.cbo.enable”参数，选中“true”永久开启功能。手动收集Hive表已有数据的统计信息。执行以下命令，可以手动收集统计信息。仅支持统计一张表，如果需要统计不同的表需重复执行。 ANALYZE TABLE [db_name.]tablename [PARTITION(partcol1[=val1], partcol2[=val2], ...)] COMPUTE STATIS TICS [FOR COLUMNS] [NOSCAN]; 指定FOR COLUMNS时，收集列级别的统计信息。指定NOSCAN时，将只统计文件大小和个数，不扫描具体文件。例如： analyze table table_name compute statistics; analyze table table_name compute statistics for columns; 配置Hive自动收集统计信息。开启配置后，执行insert overwrite/into命令插入数据时才自动统计新数据的信息。在Hive客户端执行以下命令临时开启收集： set hive.stats.autogather = true;开启表/分区级别的统计信息自动收集。 set hive.stats.column.autogather = true; 开启列级别的统计信息自动收集。列级别统计信息的收集不支持复杂的数据类型，例如Map，Struct等。表级别统计信息的自动收集不支持Hive on HBase表。在Manager界面Hive的服务配置中，搜索参数“hive.stats.autogather”和“hive.stats.column.autogather”，选中“true”永久开启收集功能。执行以下命令可以查看统计信息。 DESCRIBE FORMATTED table_name[.column_name] PARTITION partition_spec; 例如： desc formatted table_name; desc formatted table_name id; desc formatted table_name partition(time='2016-05-27'); 分区表仅支持分区级别的统计信息收集，因此分区表需要指定分区来查询统计信息。

MapReduce服务 MRS Hive性能调优
MapReduce服务 MRS-使用Hive CBO功能优化查询效率:操作场景

操作场景在Hive中执行多表Join时，Hive支持开启CBO（Cost Based Optimization），系统会自动根据表的统计信息，例如数据量、文件数等，选出合适计划提高多表Join的效率。Hive需要先收集表的统计信息后才能使CBO正确的优化。 CBO优化器会基于统计信息和查询条件，尽可能地使join顺序达到合适。但是也可能存在特殊情况导致join顺序调整不准确。例如数据存在倾斜，以及查询条件值在表中不存在等场景，可能调整出非优化的join顺序。开启列统计信息自动收集时，需要在reduce侧做聚合统计。对于没有reduce阶段的insert任务，将会多出reduce阶段，用于收集统计信息。本章节适用于MRS 3.x及后续版本。

MapReduce服务 MRS Hive性能调优
MapReduce服务 MRS-配置创建Hive内部表时不能指定Location:操作场景

操作场景此功能在MRS 3.x之前版本适用于Hive，Spark。在MRS3.x及后续版本适用于Hive，Spark2x。开启此功能后，在创建Hive内部表时，不能指定location。即表创建成功之后，表的location路径会被创建在当前默认warehouse目录下，不能被指定到其他目录。如果创建内部表时指定location，则创建失败。开启本功能之后，创建Hive内部表不能执行location。因为对建表语句做了限制，如果数据库中已存在建表时指向非当前默认warehouse目录的表，在执行建库、表脚本迁移、重建元数据操作时需要特别注意，防止错误。

MapReduce服务 MRS
MapReduce服务 MRS-配置Hive表、列或数据库的用户权限:操作场景

操作场景使用Hive表或者数据库时，如果用户访问别人创建的表或数据库，需要授予对应的权限。为了实现更严格权限控制，Hive也支持列级别的权限控制。如果要访问别人创建的表上某些列，需要授予列权限。以下介绍使用Manager角色管理功能在表授权、列授权和数据库授权三个场景下的操作。安全模式支持配置Hive表、列或数据库的权限，普通模式不支持配置Hive表、列或数据库的权限。 MRS 3.x及后续版本支持Ranger，如果当前组件使用了Ranger进行权限控制，须基于Ranger配置相关策略进行权限管理，具体操作可参考添加Hive的Ranger访问权限策略。

MapReduce服务 MRS
MapReduce服务 MRS-配置Hive表、列或数据库的用户权限:前提条件

前提条件获取一个拥有管理员权限的用户，例如“admin”。请参考创建Hive角色，在Manager界面创建一个角色，例如“hrole”，不需要设置Hive权限，设置提交Hql命令到Yarn执行的权限。在Manager界面创建两个使用Hive的“人机”用户并加入“hive”组，例如“huser1”和“huser2”。“huser2”需绑定“hrole”。使用“huser1”创建一个数据库“hdb”，并在此数据库中创建表“htable”。

MapReduce服务 MRS
MapReduce服务 MRS-配置Hive表、列或数据库的用户权限:相关概念

相关概念表1 使用Hive表、列或数据库场景权限一览操作场景用户需要的权限 DESCRIBE TABLE 查询（Select） SHOW PARTITIONS 查询（Select） ANALYZE TABLE 查询（Select）、插入（Insert） SHOW COLUMNS 查询（Select） SHOW TABLE STATUS 查询（Select） SHOW TABLE PROPERTIES 查询（Select） SELECT 查询（Select） EXPLAIN 查询（Select） CREATE VIEW 查询（Select）、Select授权（Grant Of Select）、建表（Create） SHOW CREATE TABLE 查询（Select）、Select授权（Grant Of Select） CREATE TABLE 建表（Create） ALTER TABLE ADD PARTITION 插入（Insert） INSERT 插入（Insert） INSERT OVERWRITE 插入（Insert）、删除（Delete） LOAD 插入（Insert）、删除（Delete） ALTER TABLE DROP PARTITION 删除（Delete） CREATE FUNCTION Hive管理员权限（Hive Admin Privilege） DROP FUNCTION Hive管理员权限（Hive Admin Privilege） ALTER DATABASE Hive管理员权限（Hive Admin Privilege）

MapReduce服务 MRS
MapReduce服务 MRS-Yarn常用配置参数:在UI显示container日志

在UI显示container日志默认情况下，系统会将container日志收集到HDFS中。如果您不需要将container日志收集到HDFS中，可以配置参数见表3。具体配置操作请参考修改集群服务配置参数。表3 参数说明配置参数说明默认值 yarn.log-aggregation-enable 设置是否将container日志收集到HDFS中。设置为true，表示日志会被收集到HDFS目录中。默认目录为“{yarn.nodemanager.remote-app-log-dir}/${user}/{thisParam}”，该路径可通过界面上的“yarn.nodemanager.remote-app-log-dir-suffix”参数进行配置。设置为false，表示日志不会收集到HDFS中。修改参数值后，需重启Yarn服务使其生效。说明：在修改值为false并生效后，生效前的日志无法在UI中获取。您可以在“yarn.nodemanager.remote-app-log-dir-suffix”参数指定的路径中获取到生效前的日志。如果需要在UI上查看之前产生的日志，建议将此参数设置为true。 true

MapReduce服务 MRS Yarn运维管理
MapReduce服务 MRS-使用Yarn客户端提交任务:使用Yarn客户端

使用Yarn客户端安装客户端。 MRS 3.x之前版本请参考安装客户端章节。 MRS 3.x及之后版本请参考安装客户端章节。以客户端安装用户，登录安装客户端的节点。执行以下命令，切换到客户端安装目录。 cd /opt/client 执行以下命令配置环境变量。 source bigdata_env 如果集群为安全模式，执行以下命令进行用户认证。普通模式集群无需执行用户认证。 kinit 组件业务用户直接执行Yarn命令。例如： yarn application -list

MapReduce服务 MRS 使用Yarn
MapReduce服务 MRS-Yarn常用配置参数:在WebUI显示更多历史作业

在WebUI显示更多历史作业默认情况下，Yarn WebUI界面支持任务列表分页功能，每个分页最多显示5000条历史作业，总共最多保留10000条历史作业。如果您需要在WebUI上查看更多的作业，可以配置参数如表4。具体配置操作请参考修改集群服务配置参数。表4 参数说明配置参数说明默认值 yarn.resourcemanager.max-completed-applications 设置在WebUI总共显示的历史作业数量。 10000 yarn.resourcemanager.webapp.pagination.enable 是否开启Yarn WebUI的任务列表后台分页功能。 true yarn.resourcemanager.webapp.pagination.threshold 开启Yarn WebUI的任务列表后台分页功能后，每个分页显示的最大作业数量。 5000 显示更多的历史作业，会影响性能，增加打开Yarn WebUI的时间，建议开启后台分页功能，并根据实际硬件性能修改“yarn.resourcemanager.max-completed-applications”参数。修改参数值后，需重启Yarn服务使其生效。

MapReduce服务 MRS Yarn运维管理
MapReduce服务 MRS-HDFS文件系统目录简介

HDFS文件系统目录简介 HDFS是Hadoop的分布式文件系统（Hadoop Distributed File System），实现大规模数据可靠的分布式读写。HDFS针对的使用场景是数据读写具有“一次写，多次读”的特征，而数据“写”操作是顺序写，也就是在文件创建时的写入或者在现有文件之后的添加操作。HDFS保证一个文件在一个时刻只被一个调用者执行写操作，而可以被多个调用者执行读操作。 HDFS文件系统中目录结构如下表所示。表1 HDFS文件系统目录结构（适用于MRS 3.x之前版本）路径类型简略功能是否可以删除删除的后果 /tmp/spark/sparkhive-scratch 固定目录存放Spark JD BCS erver中metastore session临时文件否任务运行失败 /tmp/sparkhive-scratch 固定目录存放Spark cli方式运行metastore session临时文件否任务运行失败 /tmp/carbon/ 固定目录数据导入过程中，如果存在异常CarbonData数据，则将异常数据放在此目录下是错误数据丢失 /tmp/Loader-${作业名}_${MR作业id} 临时目录存放Loader Hbase bulkload作业的region信息，作业完成后自动删除否 Loader Hbase Bulkload作业失败 /tmp/logs 固定目录 MR任务日志在HDFS上的聚合路径是 MR任务日志丢失 /tmp/archived 固定目录 MR任务日志在HDFS上的归档路径是 MR任务日志丢失 /tmp/hadoop-yarn/staging 固定目录保存AM运行作业运行日志、作业概要信息和作业配置属性否任务运行异常 /tmp/hadoop-yarn/staging/history/done_intermediate 固定目录所有任务运行完成后，临时存放/tmp/hadoop-yarn/staging目录下文件否 MR任务日志丢失 /tmp/hadoop-yarn/staging/history/done 固定目录周期性扫描线程定期将done_intermediate的日志文件转移到done目录否 MR任务日志丢失 /tmp/mr-history 固定目录存储预加载历史记录文件的路径否 MR历史任务日志数据丢失 /tmp/hive 固定目录存放Hive的临时文件否导致Hive任务失败 /tmp/hive-scratch 固定目录 Hive运行时生成的临时数据，如会话信息等否当前执行的任务会失败 /user/{user}/.sparkStaging 固定目录存储SparkJDB CS erver应用临时文件否 executor启动失败 /user/spark/jars 固定目录存放Spark executor运行依赖包否 executor启动失败 /user/loader 固定目录存放loader的作业脏数据以及HBase作业数据的临时存储目录否 HBase作业失败或者脏数据丢失 /user/loader/etl_dirty_data_dir /user/loader/etl_hbase_putlist_tmp /user/loader/etl_hbase_tmp /user/mapred 固定目录存放Hadoop相关的文件否导致Yarn启动失败 /user/hive 固定目录 Hive相关数据存储的默认路径，包含依赖的spark lib包和用户默认表数据存储位置等否用户数据丢失 /user/omm-bulkload 临时目录 HBase批量导入工具临时目录否 HBase批量导入任务失败 /user/hbase 临时目录 HBase批量导入工具临时目录否 HBase批量导入任务失败 /sparkJobHistory 固定目录 Spark eventlog数据存储目录否 HistoryServer服务不可用，任务运行失败 /flume 固定目录 Flume采集到HDFS文件系统中的数据存储目录否 Flume工作异常 /mr-history/tmp 固定目录 MapReduce作业产生的日志存放位置是日志信息丢失 /mr-history/done 固定目录 MR JobHistory Server管理的日志的存放位置是日志信息丢失 /tenant 添加租户时创建配置租户在HDFS中的存储目录，系统默认将自动在“/tenant”目录中以租户名称创建文件夹。例如租户“ta1”，默认HDFS存储目录为“tenant/ta1”。第一次创建租户时，系统自动在HDFS根目录创建“/tenant”目录。支持自定义存储路径。否租户不可用 /apps{1~5}/ 固定目录 WebHCat使用到Hive的包的路径否执行WebHCat任务会失败 /hbase 固定目录 HBase数据存储目录否 HBase用户数据丢失 /hbaseFileStream 固定目录 HFS文件存储目录否 HFS文件丢失，且无法恢复 /ats/active 固定目录 HDFS路径，用于存储活动的应用程序的timeline数据否删除后会导致tez任务运行失败 /ats/done 固定目录 HDFS路径，用于存储完成的应用程序的timeline数据否删除后会自动创建 /flink 固定目录存放checkpoint任务数据否删除会导致运行任务失败表2 HDFS文件系统目录结构（适用于MRS 3.x及之后版本）路径类型简略功能是否可以删除删除的后果 /tmp/spark2x/sparkhive-scratch 固定目录存放Spark2x JDBCServer中metastore session临时文件否任务运行失败 /tmp/sparkhive-scratch 固定目录存放Spark2x cli方式运行metastore session临时文件否任务运行失败 /tmp/logs/ 固定目录存放container日志文件是 container日志不可查看 /tmp/carbon/ 固定目录数据导入过程中，如果存在异常CarbonData数据，则将异常数据放在此目录下是错误数据丢失 /tmp/Loader-${作业名}_${MR作业id} 临时目录存放Loader Hbase bulkload作业的region信息，作业完成后自动删除否 Loader Hbase Bulkload作业失败 /tmp/hadoop-omm/yarn/system/rmstore 固定目录 ResourceManager运行状态信息是 ResourceManager重启后状态信息丢失 /tmp/archived 固定目录 MR任务日志在HDFS上的归档路径是 MR任务日志丢失 /tmp/hadoop-yarn/staging 固定目录保存AM运行作业运行日志、作业概要信息和作业配置属性否任务运行异常 /tmp/hadoop-yarn/staging/history/done_intermediate 固定目录所有任务运行完成后，临时存放/tmp/hadoop-yarn/staging目录下文件否 MR任务日志丢失 /tmp/hadoop-yarn/staging/history/done 固定目录周期性扫描线程定期将done_intermediate的日志文件转移到done目录否 MR任务日志丢失 /tmp/mr-history 固定目录存储预加载历史记录文件的路径否 MR历史任务日志数据丢失 /tmp/hive-scratch 固定目录 Hive运行时生成的临时数据，如会话信息等否当前执行的任务会失败 /user/{user}/.sparkStaging 固定目录存储SparkJDBCServer应用临时文件否 executor启动失败 /user/spark2x/jars 固定目录存放Spark2x executor运行依赖包否 executor启动失败 /user/loader 固定目录存放loader的作业脏数据以及HBase作业数据的临时存储目录否 HBase作业失败或者脏数据丢失 /user/loader/etl_dirty_data_dir /user/loader/etl_hbase_putlist_tmp /user/loader/etl_hbase_tmp /user/oozie 固定目录存放oozie运行时需要的依赖库，需用户手动上传否 oozie调度失败 /user/mapred/hadoop-mapreduce-3.1.1.tar.gz 固定文件 MR分布式缓存功能使用的各jar包否 MR分布式缓存功能无法使用 /user/hive 固定目录 Hive相关数据存储的默认路径，包含依赖的spark lib包和用户默认表数据存储位置等否用户数据丢失 /user/omm-bulkload 临时目录 HBase批量导入工具临时目录否 HBase批量导入任务失败 /user/hbase 临时目录 HBase批量导入工具临时目录否 HBase批量导入任务失败 /spark2xJobHistory2x 固定目录 Spark2x eventlog数据存储目录否 HistoryServer服务不可用，任务运行失败 /flume 固定目录 Flume采集到HDFS文件系统中的数据存储目录否 Flume工作异常 /mr-history/tmp 固定目录 MapReduce作业产生的日志存放位置是日志信息丢失 /mr-history/done 固定目录 MR JobHistory Server管理的日志的存放位置是日志信息丢失 /tenant 添加租户时创建配置租户在HDFS中的存储目录，系统默认将自动在“/tenant”目录中以租户名称创建文件夹。例如租户“ta1”，默认HDFS存储目录为“tenant/ta1”。第一次创建租户时，系统自动在HDFS根目录创建“/tenant”目录。支持自定义存储路径。否租户不可用 /apps{1~5}/ 固定目录 WebHCat使用到Hive的包的路径否执行WebHCat任务会失败 /hbase 固定目录 HBase数据存储目录否 HBase用户数据丢失 /hbaseFileStream 固定目录 HFS文件存储目录否 HFS文件丢失，且无法恢复父主题：使用HDFS

MapReduce服务 MRS
MapReduce服务 MRS-HDFS日志介绍:日志级别

日志级别 HDFS中提供了如表2所示的日志级别，日志级别优先级从高到低分别是FATAL、ERROR、WARN、INFO、DEBUG，程序会打印高于或等于所设置级别的日志，设置的日志等级越高，打印出来的日志就越少。表2 日志级别级别描述 FATAL FATAL表示系统运行的致命错误信息。 ERROR ERROR表示系统运行的错误信息。 WARN WARN表示当前事件处理存在异常信息。 INFO INFO表示系统及各事件正常运行状态信息。 DEBUG DEBUG表示系统及系统调试信息。如果您需要修改日志级别，请执行如下操作：请参考修改集群服务配置参数，进入HDFS的“全部配置”页面。左边菜单栏中选择所需修改的角色所对应的日志菜单。选择所需修改的日志级别。保存配置，在弹出窗口中单击“确定”使配置生效。配置完成后立即生效，不需要重启服务。

MapReduce服务 MRS
MapReduce服务 MRS-配置DataNode节点容量不一致时的副本放置策略:对系统的影响

对系统的影响修改磁盘选择策略为“节点磁盘可用空间块放置策略（org.apache.hadoop.hdfs.server.blockmanagement.AvailableSpaceBlockPlacementPolicy）”，经过测试验证，在该测试结果中，修改前后，HDFS写文件性能影响范围在3%以内。 NameNode默认的副本存储策略为：第一副本：存放到客户端所在节点。第二副本：远端机架的数据节点。第三副本：存放到客户端所在节点的相同机架的不同节点。如还有更多副本，则随机选择其它DataNode。 “节点磁盘可用空间块放置策略”的副本选择机制为：第一个副本：存放在客户端所在DataNode（和默认的存放策略一样）。第二个副本：选择存储节点的时候，先挑选2个满足要求的数据节点。比较这2个节点磁盘空间使用比例，如果磁盘空间使用率的相差小于5%，随机存放到第一个节点。如果磁盘空间使用率相差超过5%，即有60%（由dfs.namenode.available-space-block-placement-policy.balanced-space-preference-fraction指定，默认值0.6）的概率写到磁盘空间使用率低的节点。第三副本等其他后续副本的存储情况，也参考第二个副本的选择方式。

MapReduce服务 MRS
MapReduce服务 MRS-MapReduce大任务的AM调优:操作步骤

操作步骤通过调大如下的参数来进行AM调优。参数入口：在Yarn客户端的“mapred-site.xml”配置文件中调整如下参数。“mapred-site.xml”配置文件在客户端安装路径的conf目录下，例如“/opt/client/Yarn/config”。参数描述默认值 yarn.app.mapreduce.am.resource.mb 该参数值必须大于下面参数的堆大小。单位：MB 1536 yarn.app.mapreduce.am.command-opts 传递到MapReduce ApplicationMaster的JVM启动参数。 MRS 3.x之前版本：-Xmx1024m -XX:CMSFullGCsBeforeCompaction=1 -XX:+UseConcMarkSweepGC -XX:+CMSParallelRemarkEnabled -XX:+UseCMSCompactAtFullCollection -verbose:gc MRS 3.x及之后版本：-Xmx1024m -XX:+UseConcMarkSweepGC -XX:+CMSParallelRemarkEnabled -verbose:gc -Djava.security.krb5.conf=${KRB5_CONFIG} -Dhadoop.home.dir=${BIGDATA_HOME}/FusionInsight_HD_xxx/install/FusionInsight-Hadoop-xxx/hadoop

MapReduce服务 MRS
MapReduce服务 MRS-配置DataNode节点容量不一致时的副本放置策略:操作步骤

操作步骤请参考修改集群服务配置参数，进入HDFS的“全部配置”页面。调整HDFS写数据时的依据的磁盘选择策略参数。搜索“dfs.block.replicator.classname”参数，并将参数的值改为“org.apache.hadoop.hdfs.server.blockmanagement.AvailableSpaceBlockPlacementPolicy”。表1 参数描述参数参数说明 dfs.block.replicator.classname 选择副本放置的DataNode的策略。默认值为“org.apache.hadoop.hdfs.server.blockmanagement.AvailableSpaceBlockPlacementPolicy”。保存修改的配置。保存完成后请重新启动配置过期的服务或实例以使配置生效。

MapReduce服务 MRS

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

华为云用户手册

7*24

备案

专业服务

退订

建议反馈

售前咨询热线