Yarn-华为云

MAPREDUCE服务 MRS-配置AM自动调整分配内存:配置描述

配置描述参数入口：参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面，在搜索框中输入参数名称“mapreduce.job.am.memory.policy”。配置说明：配置项的默认值为空，此时不会启动自动调整的策略，ApplicationMaster的内存仍受“yarn.app.mapreduce.am.resource.mb”配置项的影响。配置参数的值由5个数值组成，中间使用“:”与“,”分隔，格式为：baseTaskCount:taskStep:memoryStep,minMemory:maxMemory，在键入时会严格校验格式。表1 配置数值说明数值名称描述设定要求 baseTaskCount 任务总量基数，只有当应用的task总数（map端与reduce端之和）不小于该值时配置才会起作用。不能为空且大于零。 taskStep 任务增量步进，与memoryStep共同决定内存调整量。不能为空且大于零。 memoryStep 内存增量步进，在“yarn.app.mapreduce.am.resource.mb”配置的基础上对内存向上调整。不能为空且大于零，单位：MB。 minMemory 内存自动调整下限，若调整后的内存不大于该值，仍保持“yarn.app.mapreduce.am.resource.mb”的配置。不能为空且大于零，且不大于maxMemory的设定值。单位：MB maxMemory 内存自动调整上限，若调整后的内存超过该值，则使用该值作为最终调整值。不能为空且大于零，且不小于minMemory的设定值。单位：MB

MAPREDUCE服务 MRS Yarn企业级能力增强

MAPREDUCE服务 MRS-启用Yarn CGroups功能限制Container CPU使用率:配置描述

配置描述有关如何配置CPU隔离与安全的CGroups功能的详细信息，请参见Hadoop官网： MRS 3.2.0之前版本：http://hadoop.apache.org/docs/r3.1.1/hadoop-yarn/hadoop-yarn-site/NodeManagerCgroups.html MRS 3.2.0及之后版本：https://hadoop.apache.org/docs/r3.3.1/hadoop-yarn/hadoop-yarn-site/NodeManagerCgroups.html 由于CGroups为Linux内核特性，是通过LinuxContainerExecutor进行开放。请参考官网资料对LinuxContainerExecutor进行安全配置。您可通过官网资料了解系统用户和用户组配置对应的文件系统权限。详情请参见： MRS 3.2.0之前版本：http://hadoop.apache.org/docs/r3.1.1/hadoop-project-dist/hadoop-common/SecureMode.html#LinuxContainerExecutor MRS 3.2.0及之后版本：https://hadoop.apache.org/docs/r3.3.1/hadoop-project-dist/hadoop-common/SecureMode.html#LinuxContainerExecutor 请勿修改对应文件系统中各路径所属的用户、用户组及对应的权限，否则可能导致本功能异常。当参数“yarn.nodemanager.resource.percentage-physical-cpu-limit”配置过小，导致可使用的核不足1个时，例如4核节点，将此参数设置为20%，不足1个核，那么将会使用系统全部的核。Linux的一些版本不支持Quota模式，例如Cent OS。在这种情况下，可以使用CPUset模式。配置cpuset模式，即Yarn只能使用配置的CPU，需要在Manager界面添加以下配置。表1 cpuset配置参数描述默认值 yarn.nodemanager.linux-container-executor.cgroups.cpu-set-usage 设置为“true”时，应用以cpuset模式运行。 false 配置strictcpuset模式，即Container只能使用配置的CPU，需要在Manager界面添加以下配置。表2 CPU硬隔离参数配置参数描述默认值 yarn.nodemanager.linux-container-executor.cgroups.cpu-set-usage 设置为“true”时，应用以cpuset模式运行。 false yarn.nodemanager.linux-container-executor.cgroups.cpuset.strict.enabled 设置为true时，Container只能使用配置的CPU。 false 要从cpuset模式切换到Quota模式，必须遵循以下条件：配置“yarn.nodemanager.linux-container-executor.cgroups.cpu-set-usage”=“false”。删除“/sys/fs/cgroup/cpuset/hadoop-yarn/”路径下container文件夹（如果存在）。删除“/sys/fs/cgroup/cpuset/hadoop-yarn/”路径下cpuset.cpus文件中设置的所有CPU。

MAPREDUCE服务 MRS 使用Yarn

MAPREDUCE服务 MRS-通过客户端hadoop jar命令提交任务后返回“GC overhead”报错:解决办法

解决办法排查启动的MapReduce任务是否对应的HDFS文件个数很多，如果很多，减少文件数量，提前先合并小文件或者尝试使用combineInputFormat来减少任务读取的文件数量。增大hadoop命令执行时的内存，该内存在客户端中设置，修改“客户端安装目录/HDFS/component_env”文件中“CLIENT_GC_OPTS”的“-Xmx”参数，将该参数的默认值改大，比如改为512m。然后执行source component_env命令，使修改的参数生效。

MAPREDUCE服务 MRS 使用Yarn

MAPREDUCE服务 MRS-Yarn日志介绍:日志级别

日志级别 Yarn中提供了如表2所示的日志级别。其中日志级别优先级从高到低分别是OFF、FATAL、ERROR、WARN、INFO、DEBUG。程序会打印高于或等于所设置级别的日志，设置的日志等级越高，打印出来的日志就越少。表2 日志级别级别描述 FATAL FATAL表示当前事件处理存在严重错误信息。 ERROR ERROR表示当前事件处理存在错误信息。 WARN WARN表示当前事件处理存在异常告警信息。 INFO INFO表示记录系统及各事件正常运行状态信息。 DEBUG DEBUG表示记录系统及系统的调试信息。如果您需要修改日志级别，请执行如下操作：参考修改集群服务配置参数，进入Yarn服务“全部配置”页面。在左边菜单栏中选择所需修改的角色所对应的日志菜单。选择所需修改的日志级别。单击“保存配置”，在弹出窗口中单击“确定”使配置生效。配置完成后立即生效，不需要重启服务。

MAPREDUCE服务 MRS Yarn运维管理

MAPREDUCE服务 MRS-Yarn常用配置参数:在WebUI显示更多历史作业

在WebUI显示更多历史作业默认情况下，Yarn WebUI界面支持任务列表分页功能，每个分页最多显示5000条历史作业，总共最多保留10000条历史作业。如果您需要在WebUI上查看更多的作业，可以配置参数如表3。具体配置操作请参考修改集群服务配置参数。表3 参数说明配置参数说明默认值 yarn.resourcemanager.max-completed-applications 设置在WebUI总共显示的历史作业数量。 10000 yarn.resourcemanager.webapp.pagination.enable 是否开启Yarn WebUI的任务列表后台分页功能。 true yarn.resourcemanager.webapp.pagination.threshold 开启Yarn WebUI的任务列表后台分页功能后，每个分页显示的最大作业数量。 5000 显示更多的历史作业，会影响性能，增加打开Yarn WebUI的时间，建议开启后台分页功能，并根据实际硬件性能修改“yarn.resourcemanager.max-completed-applications”参数。修改参数值后，需重启Yarn服务使其生效。

MAPREDUCE服务 MRS Yarn运维管理

MAPREDUCE服务 MRS-Yarn常用配置参数:在UI显示container日志

在UI显示container日志默认情况下，系统会将container日志收集到HDFS中。如果您不需要将container日志收集到HDFS中，可以配置参数见表2。具体配置操作请参考修改集群服务配置参数。表2 参数说明配置参数说明默认值 yarn.log-aggregation-enable 设置是否将container日志收集到HDFS中。设置为true，表示日志会被收集到HDFS目录中。默认目录为“{yarn.nodemanager.remote-app-log-dir}/${user}/{thisParam}”，该路径可通过界面上的“yarn.nodemanager.remote-app-log-dir-suffix”参数进行配置。设置为false，表示日志不会收集到HDFS中。修改参数值后，需重启Yarn服务使其生效。说明：在修改值为false并生效后，生效前的日志无法在UI中获取。您可以在“yarn.nodemanager.remote-app-log-dir-suffix”参数指定的路径中获取到生效前的日志。如果需要在UI上查看之前产生的日志，建议将此参数设置为true。 true

MAPREDUCE服务 MRS Yarn运维管理

MAPREDUCE服务 MRS-配置AM作业自动保留:配置描述

配置描述参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面，在搜索框中输入参数名称。根据表1，对如下参数进行设置。表1 AM作业保留相关参数参数说明默认值 yarn.app.mapreduce.am.work-preserve 是否开启AM作业保留特性。 false yarn.app.mapreduce.am.umbilical.max.retries AM作业保留特性中，运行的容器尝试恢复的最大次数。 5 yarn.app.mapreduce.am.umbilical.retry.interval AM作业保留特性中，运行的容器尝试恢复的时间间隔。单位：毫秒。 10000 yarn.resourcemanager.am.max-attempts ApplicationMaster的重试次数。增加重试次数可以避免当资源不足时造成AM启动失败。适用于所有ApplicationMaster的全局设置。每个ApplicationMaster都可以使用API设置一个单独的最大尝试次数，但这个次数不能大于全局的最大次数。如果大于了，那ResourceManager将会覆写这个单独的最大尝试次数。取值范围大于等于1。 2

MAPREDUCE服务 MRS Yarn企业级能力增强

MAPREDUCE服务 MRS-配置AM作业自动保留:配置场景

配置场景在YARN中，ApplicationMaster(AM)与Container类似，都运行在NodeManager(NM)上（本文中忽略未管理的AM）。AM可能由于多种原因崩溃、退出或关闭。如果AM停止运行，ResourceManager(RM)会关闭ApplicationAttempt中管理的所有Container，其中包括当前在NM上运行的所有Container。RM会在另一计算节点上启动新的ApplicationAttempt。对于不同类型的应用，希望以不同方式处理AM重启的事件。MapReduce类应用的目标是不丢失任务，但允许丢失当前运行的Container。但是对于长周期的YARN服务而言，用户可能并不希望由于AM的故障而导致整个服务停止运行。 YARN支持在新的ApplicationAttempt启动时，保留之前Container的状态，因此运行中的作业可以继续无故障的运行。图1 AM作业保留

MAPREDUCE服务 MRS Yarn企业级能力增强

MAPREDUCE服务 MRS-启用Yarn CGroups功能限制Container CPU使用率:配置描述

配置描述有关如何配置CPU隔离与安全的CGroups功能的详细信息，请参见Hadoop官网： MRS 3.2.0之前版本：http://hadoop.apache.org/docs/r3.1.1/hadoop-yarn/hadoop-yarn-site/NodeManagerCgroups.html MRS 3.2.0及之后版本：https://hadoop.apache.org/docs/r3.3.1/hadoop-yarn/hadoop-yarn-site/NodeManagerCgroups.html 由于CGroups为Linux内核特性，是通过LinuxContainerExecutor进行开放。请参考官网资料对LinuxContainerExecutor进行安全配置。您可通过官网资料了解系统用户和用户组配置对应的文件系统权限。详情请参见： MRS 3.2.0之前版本：http://hadoop.apache.org/docs/r3.1.1/hadoop-project-dist/hadoop-common/SecureMode.html#LinuxContainerExecutor MRS 3.2.0及之后版本：https://hadoop.apache.org/docs/r3.3.1/hadoop-project-dist/hadoop-common/SecureMode.html#LinuxContainerExecutor 请勿修改对应文件系统中各路径所属的用户、用户组及对应的权限，否则可能导致本功能异常。当参数“yarn.nodemanager.resource.percentage-physical-cpu-limit”配置过小，导致可使用的核不足1个时，例如4核节点，将此参数设置为20%，不足1个核，那么将会使用系统全部的核。Linux的一些版本不支持Quota模式，例如Cent OS。在这种情况下，可以使用CPUset模式。配置cpuset模式，即YARN只能使用配置的CPU，需要添加以下配置。表1 cpuset配置参数描述默认值 yarn.nodemanager.linux-container-executor.cgroups.cpu-set-usage 设置为“true”时，应用以cpuset模式运行。 false 配置strictcpuset模式，即container只能使用配置的CPU，需要添加以下配置。表2 CPU硬隔离参数配置参数描述默认值 yarn.nodemanager.linux-container-executor.cgroups.cpu-set-usage 设置为“true”时，应用以cpuset模式运行。 false yarn.nodemanager.linux-container-executor.cgroups.cpuset.strict.enabled 设置为true时，container只能使用配置的CPU。 false 要从cpuset模式切换到Quota模式，必须遵循以下条件：配置“yarn.nodemanager.linux-container-executor.cgroups.cpu-set-usage”=“false”。删除“/sys/fs/cgroup/cpuset/hadoop-yarn/”路径下container文件夹（如果存在）。删除“/sys/fs/cgroup/cpuset/hadoop-yarn/”路径下cpuset.cpus文件中设置的所有CPU。

MAPREDUCE服务 MRS 使用Yarn

MAPREDUCE服务 MRS-当一个NodeManager处于unhealthy的状态10分钟时，新应用程序失败:回答

回答当nodeSelectPolicy为SEQUENCE，且第一个连接到RM的NM不可用时，RM会在“yarn.nm.liveness-monitor.expiry-interval-ms”属性中指定的周期内，一直尝试为同一个NM分配任务。可以通过两种方式来避免上述问题：使用其他的nodeSelectPolicy，如RANDOM。参考修改集群服务配置参数，进入Yarn“全部配置”页面。在搜索框搜索以下参数，通过“yarn-site.xml”文件更改以下属性： “yarn.resourcemanager.am-scheduling.node-blacklisting-enabled” = “true”； “yarn.resourcemanager.am-scheduling.node-blacklisting-disable-threshold” = “0.5”。

MAPREDUCE服务 MRS Yarn常见问题

MAPREDUCE服务 MRS-作业执行失败时会发生HDFS_DELEGATION_TOKEN到期的异常:回答

回答 HDFS_DELEGATION_TOKEN到期的异常是由于token没有更新或者超出了最大生命周期。在token的最大生命周期内确保下面的参数值大于作业的运行时间。 “dfs.namenode.delegation.token.max-lifetime”=“604800000”（默认是一星期）参考修改集群服务配置参数，进入HDFS“全部配置”页面，在搜索框搜索该参数。建议在token的最大生命周期内参数值为多倍小时数。

MAPREDUCE服务 MRS Yarn常见问题

MAPREDUCE服务 MRS-配置ResourceManager重启后自动加载Container信息:配置描述

配置描述参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面，在搜索框中输入参数名称。 ResourceManager Restart特性配置如下。表1 ResourceManager Restart参数配置参数描述默认值 yarn.resourcemanager.recovery.enabled 设置是否让ResourceManager在启动后恢复状态。如果设置为true，那yarn.resourcemanager.store.class也必须设置。 true yarn.resourcemanager.store.class 指定用于保存应用程序和任务状态以及证书内容的state-store类。 org.apache.hadoop.yarn.server.resourcemanager.recovery.AsyncZK RMS tateStore yarn.resourcemanager.zk-state-store.parent-path ZKRMStateStore在ZooKeeper上的保存目录。 /rmstore yarn.resourcemanager.work-preserving-recovery.enabled 启用ResourceManager Work preserving功能。该配置仅用于YARN特性验证。 true yarn.resourcemanager.state-store.async.load 对已完成的application采用ResourceManager异步恢复方式。 true yarn.resourcemanager.zk-state-store.num-fetch-threads 启用异步恢复功能，增加工作线程的数量可以加快恢复ZK中保存的任务信息的速度，取值范围大于0。 20 NodeManager Restart特性配置如下。表2 NodeManager Restart参数配置参数描述默认值 yarn.nodemanager.recovery.enabled 当Nodemanager重启时是否启用日志失败收集功能，是否恢复未完成的Application。 true yarn.nodemanager.recovery.dir NodeManager用于保存container状态的本地目录。 ${SRV_HOME}/tmp/yarn-nm-recovery yarn.nodemanager.recovery.supervised NodeManager是否在监控下运行。开启此特性后NodeManager在退出后不会清理containers，NodeManager会假设自己会立即重启和恢复containers。 true

MAPREDUCE服务 MRS Yarn企业级能力增强

MAPREDUCE服务 MRS-配置ResourceManager重启后自动加载Container信息:配置场景

配置场景 YARN Restart特性包含两部分内容：ResourceManager Restart和NodeManager Restart。当启用ResourceManager Restart时，升主后的ResourceManager就可以通过加载之前的主ResourceManager的状态信息，并通过接收所有NodeManager上container的状态信息，重构运行状态继续执行。这样应用程序通过定期执行检查点操作保存当前状态信息，就可以避免工作内容的丢失。当启用NodeManager Restart时，NodeManager在本地保存当前节点上运行的container信息，重启NodeManager服务后通过恢复此前保存的状态信息，就不会丢失在此节点上运行的container进度。

MAPREDUCE服务 MRS Yarn企业级能力增强

MAPREDUCE服务 MRS-为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败:回答

回答通过集群将非ViewFS文件系统配置为ViewFS时，ViewFS中的文件夹的用户权限与默认NameService中的非ViewFS不同。因为目录权限不匹配，所以已提交的MR作业运行失败。在集群中配置ViewFS的用户，需要检查并校验目录权限。在提交作业之前，应按照默认的NameService文件夹权限更改ViewFS文件夹权限。下表列出了ViewFS中配置的目录的默认权限结构。如果配置的目录权限与下表不匹配，则必须相应地更改目录权限。表1 ViewFS中配置的目录的默认权限结构参数描述默认值默认值及其父目录的默认权限 yarn.nodemanager.remote-app-log-dir 在默认文件系统上（通常是HDFS），指定NM应将日志聚合到哪个目录。 logs 777 yarn.nodemanager.remote-app-log-archive-dir 将日志归档的目录。 - 777 yarn.app.mapreduce.am.staging-dir 提交作业时使用的staging目录。 /tmp/hadoop-yarn/staging 777 mapreduce.jobhistory.intermediate-done-dir MapReduce作业记录历史文件的目录。 ${yarn.app.mapreduce.am.staging-dir}/history/done_intermediate 777 mapreduce.jobhistory.done-dir 由MR JobHistory Server管理的历史文件的目录。 ${yarn.app.mapreduce.am.staging-dir}/history/done 777

MAPREDUCE服务 MRS Yarn常见问题

MAPREDUCE服务 MRS-配置AM失败重试次数:配置描述

配置描述参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面，在搜索框中输入表1中参数名称。表1 参数说明参数描述默认值 yarn.resourcemanager.am.max-attempts ApplicationMaster重试次数，增加重试次数，可以防止资源不足导致的AM启动失败问题。适用于所有ApplicationMaster的全局设置。每个ApplicationMaster都可以使用API设置一个单独的最大尝试次数，但这个次数不能大于全局的最大次数。如果大于了，那ResourceManager将会覆写这个单独的最大尝试次数。以允许至少一次重试。取值范围大于等于1。 5

MAPREDUCE服务 MRS Yarn企业级能力增强

云服务器内容精选

Yarn

7*24

备案

专业服务

退订

建议反馈

售前咨询热线