检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
重启受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。 否,执行6。 重启服务期间服务不可用,业务中断。重启实例期间实例不可用,当前实例节点任务会执行失败。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Ranger”。
平滑次数为1,CPU使用率小于或等于阈值时,告警恢复;平滑次数大于1,CPU使用率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12016 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。
对于不同类型的应用,希望以不同方式处理AM重启的事件。MapReduce类应用的目标是不丢失任务,但允许丢失当前运行的Container。但是对于长周期的YARN服务而言,用户可能并不希望由于AM的故障而导致整个服务停止运行。 YARN支持在新的ApplicationAttempt启动时,保留
Start Action 功能描述 流程任务的执行入口,每个流程任务有且仅有一个该节点。 参数解释 Start Action节点中包含的各参数及其含义,请参见表1。 表1 参数含义 参数 含义 to 后继action节点的名称 样例代码 <start to="mr-dataLoad"/>
平滑次数为1,主机内存使用率小于或等于阈值时,告警恢复;平滑次数大于1,主机内存使用率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12018 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。
配置Oozie作业执行入口 功能描述 流程任务的执行入口,每个流程任务有且仅有一个该节点。 参数解释 Start Action节点中包含的各参数及其含义,请参见表1。 表1 参数含义 参数 含义 to 后继action节点的名称 样例代码 <start to="mr-dataLoad"/>
配置Oozie作业执行入口 功能描述 流程任务的执行入口,每个流程任务有且仅有一个该节点。 参数解释 Start Action节点中包含的各参数及其含义,请参见表1。 表1 参数含义 参数 含义 to 后继action节点的名称 样例代码 <start to="mr-dataLoad"/>
重启受影响的服务或实例观察界面告警是否清除。 是,处理完毕。 否,执行6。 重启服务期间服务不可用,业务中断。重启实例期间实例不可用,当前实例节点任务会执行失败。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Ranger”。
为什么运行任务时客户端不可用 问题 当运行任务时,将MR ApplicationMaster或ResourceManager移动为D状态,为什么此时客户端会不可用? 回答 当运行任务时,将MR ApplicationMaster或ResourceManager移动为D状态(不间断
基于分区的任务黑名单异常如何处理 问题 Map&Reduce任务失败,并且故障节点数与集群总节点数的比值低于“yarn.resourcemanager.am-scheduling.node-blacklisting-disable-threshold”配置的黑名单阈值,为什么Ma
为什么运行任务时客户端不可用 问题 当运行任务时,将MR ApplicationMaster或ResourceManager移动为D状态,为什么此时客户端会不可用? 回答 当运行任务时,将MR ApplicationMaster或ResourceManager移动为D状态(不间断
多个NameService环境下运行MapReduce任务失败 问题 多个NameService环境下,运行使用viewFS功能的MapReduce或YARN任务失败。 回答 当使用viewFS时,只有在viewFS中挂载的目录才能被访问到。所以最可能的原因是配置的路径没有在viewFS的挂载点上。例如:
开启Native Task特性后,Reduce任务在部分操作系统运行失败 问题 开启Native Task特性后,Reduce任务在部分操作系统运行失败。 回答 运行包含Reduce的Mapreduce任务时,通过-Dmapreduce.job.map.output.collector
ALM-50211 BE的各种定期汇报任务在FE端的队列长度超过阈值 告警解释 系统每30秒周期性检查BE的各种定期汇报任务在FE端的队列长度,当检查到该值超出阈值(默认值为10)时产生该告警。该值反映了汇报任务在Master FE节点上的阻塞程度,数值越大,表示FE处理能力不足。
当备Manager与主Manager正常同步文件时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12011 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。
0-LTS及之后的版本中,Spark2x服务改名为Spark,服务包含的角色名也有差异,例如JobHistory2x变更为JobHistory。相关涉及服务名称、角色名称的描述和操作请以实际版本为准。 kinit sparkuser 上传CSV中的文件到HDFS的“/data”目录:
多个SFTP服务器操作数据,单击“添加”可增加多行SFTP服务器的配置信息。 表1 连接参数 参数名 说明 示例 名称 SFTP服务器连接的名称。 sftpName Sftp服务器的IP SFTP服务器的IP地址。 10.16.0.1 Sftp服务器端口 SFTP服务器的端口号。
平滑次数为1,主机PID使用率小于或等于阈值时,告警恢复;平滑次数大于1,主机PID使用率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12027 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。
产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 RPC时长越长表示性能负载越高,网络请求处理越慢,可能会导致服务阻塞。 可能原因 网络存在时延
产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 CDL服务异常,无法通过FusionInsight Manager对CDL进行集群操作,无法使用CDL服务功能。 可能原因 CDL服务的全部CDLServi