检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为任务申请资源以重启任务。 NodeManager(NM) NM是每个节点上的资源和任务管理器,一方面,它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态;另一方面,它会接收并处理来自AM的Container启动/停止等各种请求。 Container C
为任务申请资源以重启任务。 NodeManager(NM) NM是每个节点上的资源和任务管理器,一方面,它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态;另一方面,它会接收并处理来自AM的Container启动/停止等各种请求。 Container C
为任务申请资源以重启任务。 NodeManager(NM) NM是每个节点上的资源和任务管理器,一方面,它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态;另一方面,它会接收并处理来自AM的Container启动/停止等各种请求。 Container C
变慢或者失败重试。 可能原因 业务访问HBase服务时单Region请求过高。 处理步骤 检查HBase是否存在单Region请求过高。 登录FusionInsight Manager,选择“运维 > 告警 > 告警”。 在“HBase Region限流”的“附加信息”中查看上报的表名及Region信息。
上层计算服务(Spark/Hive/HetuEngine等)对MemArtsCC组件的并发请求数激增,或者业务突增服务负载增加,或者磁盘负载增加乃至故障等。 处理步骤 登录FusionInsight Manager,选择“运维 > 告警 > 告警”,查找告警“ALM-47004 MemArtsCC Worke
为任务申请资源以重启任务。 NodeManager(NM) NM是每个节点上的资源和任务管理器,一方面,它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态;另一方面,它会接收并处理来自AM的Container启动/停止等各种请求。 Container C
Coordinator进程GC时间过长,会影响Coordinator进程运行的性能,甚至造成Coordinator进程不可用。 可能原因 该节点Coordinator进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,单击“运维 >
对系统的影响 Worker进程GC时间过长,会影响Worker进程运行的性能,甚至造成Worker进程不可用。 可能原因 该节点Worker进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,单击“运维 >
RS集群客户端。 安装成功后,即可访问OBS。例如,在未开启Kerberos认证的MRS集群的HDFS客户端访问OBS: 以客户端安装用户登录安装客户端的节点。 切换到客户端安装目录并配置环境变量: cd 客户端安装目录 source bigdata_env 在HDFS客户端执行以下命令访问OBS:
readFully接口调用失败数高于阈值,会影响上层大数据计算业务的正常执行,导致某些计算任务的执行失败。 可能原因 OBS服务端出现执行异常或严重超时。 处理步骤 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > meta > OBS的readFully接口调用失败总
read接口调用失败数高于阈值,会影响上层大数据计算业务的正常执行,导致某些计算任务的执行失败。 可能原因 OBS服务端出现执行异常或严重超时。 处理步骤 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > meta > OBS的read接口调用失败总数”,将阈值或平滑次数参数的值根据实际情况调大。
处理步骤 端口进程检查。 在FusionInsight Manager页面告警列表中,单击此告警所在行的,查看该告警的主机名。 以omm用户登录RangerAdmin状态异常实例所在节点,执行ps -ef|grep "proc_rangeradmin" | grep -v grep
HDFS服务不可用告警帮助指导处理对应告警。 告警全部恢复后,等待几分钟,检查本告警是否恢复。 是,处理完毕。 否,执行3。 检查所有TokenServer实例。 以omm用户登录TokenServer实例所在节点,执行ps -ef|grep "guardian.token.server.Server"命令查看当前节点是否存在TokenServer进程。
行提交、终止、查看作业等操作;无法成功调用MRS API V2作业管理接口。 可能原因 JobGateway服务所在节点故障。 处理步骤 登录FusionInsight Manager首页,选择“集群 > 服务 > JobGateway > 实例”。进入实例页面查看JobServ
S、DBService要求状态正常,其他组件要求停止服务)。 是,执行7。 否,执行2。 恢复组件状态至要求状态,再一次启动该恢复任务。 登录MRS Manager管理界面,选择“告警管理”。在告警列表中单击该告警所在行,从“定位信息”处获得任务名。 选择“系统设置 > 恢复管理
Manager首页,选择“运维 > 告警 > 告警 > Kafka默认用户状态异常 > 定位信息”。查看告警上报的实例的主机名。 根据告警提示的主机信息,登录到该节点上。 执行id -Gn kafka,查看返回结果是否报"No such user"。 是,记录当前节点主机名,并执行4。 否,执行6。
告警消除后,查看“Ranger服务不可用”告警是否清除。 是,处理完毕。 否,执行3。 检查所有RangerAdmin实例。 以omm用户登录RangerAdmin实例所在节点,执行ps -ef|grep "proc_rangeradmin"命令查看当前节点是否存在RangerAdmin进程。
interval”设置成较大的值,或者不对参数进行设置。查看MapReduce任务是否能成功执行。 是,执行2.e。 否,执行2.b。 检查Yarn服务状态。 登录MRS集群详情页面,选择“告警管理”。 在告警列表中,查看是否有“ALM-18000 Yarn服务不可用”产生。 是,执行2.c。 否,执行3。
Worker4进程GC时间过长,会影响Worker4进程运行的性能,甚至造成Worker4进程不可用。 可能原因 该节点Worker4进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,单击“运维 >
在FusionInsight Manager页面,在告警列表中,单击此告警所在行的,查看该告警的DBService备服务器地址。 以root用户登录主DBService服务器,用户密码为安装前用户自定义,请咨询系统管理员。 执行ping 备DBService心跳IP地址命令检查备DBService服务器是否可达。