MapReduce性能调优-华为云

MAPREDUCE服务 MRS-通过Slow Start调优MapReduce任务:操作场景

操作场景 Slow Start特性指定Map任务完成度为多少时Reduce任务可以启动，过早启动Reduce任务会导致资源占用，影响任务运行效率，但适当的提早启动Reduce任务会提高Shuffle阶段的资源利用率，提高任务运行效率。例如：某集群可启动10个Map任务，MapReduce作业共15个Map任务，那么在一轮Map任务执行完成后只剩5个Map任务，集群还有剩余资源，在这种场景下，配置Slow Start参数值小于1，比如0.8，则Reduce就可以利用集群剩余资源。

MAPREDUCE服务 MRS MapReduce性能调优

MAPREDUCE服务 MRS-配置MapReduce Job基线:操作步骤

操作步骤原则一：充分利用集群资源。 Job运行时，会让所有的节点都有任务处理，且处于繁忙状态，这样才能保证资源充分利用，任务的并发度达到最大。可以通过调整处理的数据量大小，以及调整map和reduce个数来实现。 Reduce个数的控制使用“mapreduce.job.reduces”。 Map个数取决于使用了哪种InputFormat，以及待处理的数据文件是否可分割。默认的TextFileInputFormat将根据block的个数来分配map数(一个block一个map)。通过如下配置参数进行调整。参数入口：进入Yarn服务参数“全部配置”界面，在搜索框中输入参数名称。具体操作请参考修改集群服务配置参数章节。参数描述默认值 mapreduce.input.fileinputformat.split.maxsize map输入信息应被拆分成的数据块的最大大小。由用户定义的分片大小的设置及每个文件block大小的设置，可以计算分片的大小。计算公式如下： splitSize = Math.max(minSize, Math.min(maxSize, blockSize)) 如果maxSize设置大于blockSize，那么每个block就是一个分片，否则就会将一个block文件分隔为多个分片，如果block中剩下的一小段数据量小于splitSize，还是认为它是独立的分片。 - mapreduce.input.fileinputformat.split.minsize 可以设置数据分片的数据最小值。 0 原则二：控制reduce阶段在一轮中完成。避免以下两种场景：大部分的reduce在第一轮运行完后，剩下唯一一个reduce继续运行。这种情况下，这个reduce的执行时间将极大影响这个job的运行时间。因此需要将reduce个数减少。所有的map运行完后，只有个别节点有reduce在运行。这时候集群资源没有得到充分利用，需要增加reduce的个数以便每个节点都有任务处理。原则三：每个task的执行时间要合理。如果一个job，每个map或reduce的执行时间只有几秒钟，就意味着这个job的大部分时间都消耗在task的调度和进程启停上了，因此需要增加每个task处理的数据大小。建议一个task处理时间为1分钟。控制单个task处理时间的大小，可以通过如下配置来调整。参数入口：进入Yarn服务参数“全部配置”界面，在搜索框中输入参数名称。具体操作请参考修改集群服务配置参数章节。参数描述默认值 mapreduce.input.fileinputformat.split.maxsize map输入信息应被拆分成的数据块的最大大小。由用户定义的分片大小的设置及每个文件block大小的设置，可以计算分片的大小。计算公式如下： splitSize = Math.max(minSize, Math.min(maxSize, blockSize)) 如果maxSize设置大于blockSize，那么每个block就是一个分片，否则就会将一个block文件分隔为多个分片，如果block中剩下的一小段数据量小于splitSize，还是认为它是独立的分片。 - mapreduce.input.fileinputformat.split.minsize 可以设置数据分片的数据最小值。 0

MAPREDUCE服务 MRS MapReduce性能调优

MAPREDUCE服务 MRS-降低MapReduce客户端运行任务失败率:配置描述

配置描述在客户端的“mapred-site.xml”配置文件中调整如下参数。 “mapred-site.xml”配置文件在客户端安装路径的conf目录下，例如“/opt/client/Yarn/config”。表1 参数说明参数描述默认值 mapreduce.reduce.shuffle.max-host-failures MR任务在reduce过程中读取远端shuffle数据允许失败的次数。当设置次数大于5时，可以降低客户端应用的失败率。 5 mapreduce.client.submit.file.replication MR任务在运行时依赖的相关job文件在HDFS上的备份。当备份数大于10时，可以降低客户端应用的失败率。 10

MAPREDUCE服务 MRS MapReduce性能调优

MAPREDUCE服务 MRS-配置MapReduce任务推测执行:操作步骤

操作步骤参数入口：进入Yarn服务参数“全部配置”界面，在搜索框中输入参数名称。具体操作请参考修改集群服务配置参数章节。参数描述默认值 mapreduce.map.speculative 设置是否并行执行某些映射任务的多个实例。true表示开启。 false mapreduce.reduce.speculative 设置是否并行执行某些reduce任务的多个实例。true表示开启。 false

MAPREDUCE服务 MRS MapReduce性能调优

MAPREDUCE服务 MRS-MapReduce大任务的AM调优:操作步骤

操作步骤通过调大如下的参数来进行AM调优。参数入口：在Yarn客户端的“mapred-site.xml”配置文件中调整如下参数。“mapred-site.xml”配置文件在客户端安装路径的conf目录下，例如“/opt/client/Yarn/config”。参数描述默认值 yarn.app.mapreduce.am.resource.mb 该参数值必须大于下面参数的堆大小。单位：MB 1536 yarn.app.mapreduce.am.command-opts 传递到MapReduce ApplicationMaster的JVM启动参数。 -Xmx1024m -XX:+UseConcMarkSweepGC -XX:+CMSParallelRemarkEnabled -verbose:gc -Djava.security.krb5.conf=${KRB5_CONFIG} -Dhadoop.home.dir=${BIGDATA_HOME}/ FusionInsight _HD_xxx/install/FusionInsight-Hadoop-xxx/hadoop

MAPREDUCE服务 MRS MapReduce性能调优

MAPREDUCE服务 MRS-多CPU内核下的MapReduce调优配置:操作步骤

操作步骤以下参数有如下两个配置入口：服务器端配置进入Yarn服务参数“全部配置”界面，在搜索框中输入参数名称。具体操作请参考修改集群服务配置参数章节。客户端配置直接在客户端中修改相应的配置文件。 HDFS客户端配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/hdfs-site.xml。 Yarn客户端配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/yarn-site.xml。 MapReduce客户端配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/mapred-site.xml。表1 多CPU内核设置配置描述参数默认值 Server/Client 影响备注节点容器槽位数如下配置组合决定了每节点任务(map、reduce)的并发数。 “yarn.nodemanager.resource.memory-mb” “mapreduce.map.memory.mb” “mapreduce.reduce.memory.mb” yarn.nodemanager.resource.memory-mb 说明： MRS 3.x之前版本：需要在MRS控制台上进行配置。 MRS 3.x及之后版本：需要在FusionInsight Manager系统进行配置。 MRS 3.x之前版本： 8192 MRS 3.x及之后版本： 16384 Server 如果所有的任务(map/reduce)需要读写数据至磁盘，多个进程将会同时访问一个磁盘。这将会导致磁盘的IO性能非常的低下。为了改善磁盘的性能，请确保客户端并发访问磁盘的数不大于3。最大并发的container数量应该为[2.5 * Hadoop中磁盘配置数 ]。 mapreduce.map.memory.mb 说明：需要在客户端进行配置，配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/mapred-site.xml。 4096 Client mapreduce.reduce.memory.mb 说明：需要在客户端进行配置，配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/mapred-site.xml。 4096 Client Map输出与压缩 Map任务所产生的输出可以在写入磁盘之前被压缩，这样可以节约磁盘空间并得到更快的写盘速度，同时可以减少至Reducer的数据传输量。需要在客户端进行配置。 mapreduce.map.output.compress指定了Map任务输出结果可以在网络传输前被压缩。这是一个per-job的配置。 mapreduce.map.output.compress.codec指定用于压缩的编解码器。 mapreduce.map.output.compress 说明：需要在客户端进行配置，配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/mapred-site.xml。 true Client 在这种情况下，磁盘的IO是主要瓶颈。所以可以选择一种压缩率非常高的压缩算法。编解码器可配置为Snappy，Benchmark测试结果显示Snappy是非常平衡以及高效的编码器。 mapreduce.map.output.compress.codec 说明：需要在客户端进行配置，配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/mapred-site.xml。 org.apache.hadoop.io.compress.Lz4Codec Client Spills mapreduce.map.sort.spill.percent mapreduce.map.sort.spill.percent 说明：需要在客户端进行配置，配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/mapred-site.xml。 0.8 Client 磁盘IO是主要瓶颈，合理配置“mapreduce.task.io.sort.mb”可以使溢出至磁盘的内容最小化。 - 数据包大小当HDFS客户端写数据至数据节点时，数据会被累积，直到形成一个包。然后这个数据包会通过网络传输。dfs.client-write-packet-size配置项可以指定该数据包的大小。这个可以通过每个job进行指定。 dfs.client-write-packet-size 说明：需要在客户端进行配置，配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/hdfs-site.xml。 262144 Client 数据节点从HDFS客户端接收数据包，然后将数据包里的数据单线程写入磁盘。当磁盘处于并发写入状态时，增加数据包的大小可以减少磁盘寻道时间，从而提升IO性能。 dfs.client-write-packet-size = 262144

MAPREDUCE服务 MRS MapReduce性能调优

MAPREDUCE服务 MRS-配置MapReduce任务推测执行:操作步骤

操作步骤参数入口：进入Yarn服务参数“全部配置”界面，在搜索框中输入参数名称。具体操作请参考修改集群服务配置参数章节。参数描述默认值 mapreduce.map.speculative 设置是否并行执行某些映射任务的多个实例。true表示开启。 false mapreduce.reduce.speculative 设置是否并行执行某些reduce任务的多个实例。true表示开启。 false

MAPREDUCE服务 MRS MapReduce性能调优

MAPREDUCE服务 MRS-MapReduce大任务的AM调优:操作步骤

操作步骤通过调大如下的参数来进行AM调优。参数入口：在Yarn客户端的“mapred-site.xml”配置文件中调整如下参数。“mapred-site.xml”配置文件在客户端安装路径的conf目录下，例如“/opt/client/Yarn/config”。参数描述默认值 yarn.app.mapreduce.am.resource.mb 该参数值必须大于下面参数的堆大小。单位：MB 1536 yarn.app.mapreduce.am.command-opts 传递到MapReduce ApplicationMaster的JVM启动参数。 MRS 3.x之前版本：-Xmx1024m -XX:CMSFullGCsBeforeCompaction=1 -XX:+UseConcMarkSweepGC -XX:+CMSParallelRemarkEnabled -XX:+UseCMSCompactAtFullCollection -verbose:gc MRS 3.x及之后版本：-Xmx1024m -XX:+UseConcMarkSweepGC -XX:+CMSParallelRemarkEnabled -verbose:gc -Djava.security.krb5.conf=${KRB5_CONFIG} -Dhadoop.home.dir=${BIGDATA_HOME}/FusionInsight_HD_xxx/install/FusionInsight-Hadoop-xxx/hadoop

MAPREDUCE服务 MRS MapReduce性能调优

云服务器内容精选

MapReduce性能调优

7*24

备案

专业服务

退订

建议反馈

售前咨询热线