检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
参数解释: CPU使用率。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 memory_usage String 参数解释: 内存使用率。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 disk_usage String 参数解释: 硬盘使用率。 约束限制:
程处于D状态。 处理步骤 查看D状态进程。 打开MRS集群详情页面,在告警列表中,单击此告警所在行,在告警详情中,查看该告警的主机地址。 登录告警节点。 执行以下命令切换用户: sudo su - root su - omm 执行如下命令查看omm用户D状态进程号。 ps -elf
对于管理员创建IAM用户接口,返回如图1所示的消息头,其中“x-subject-token”就是需要获取的用户Token。有了Token之后,您就可以使用Token认证调用其他API。 图1 管理员创建IAM用户响应消息头 响应消息体 该部分可选。响应消息体通常以结构化格式(如JSON或XM
Coordinator进程GC时间过长,会影响Coordinator进程运行的性能,甚至造成Coordinator进程不可用。 可能原因 该节点Coordinator进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 登录MRS集群详情页面,选择“告警管理”。 选中“告警ID”为
sh 回退完成后需要在FusionInsight Manager界面上重启Spark的JDBCServer2x实例。 回退客户端补丁 如果有使用自主安装的客户端(集群内、外新下载客户端),需要执行客户端升级或者回退的操作。 登录客户端所在节点并执行以下命令: cd /opt/{MRS补丁版本号}/client
Manager,查看该告警阈值是否合理(默认0.5%为合理值,用户可以根据自己的实际需求调节)。 是,执行4。 否,执行2。 根据实际服务的使用情况在“系统设置 > 阈值配置 > 设备 > 主机 > 网络写信息 > 网络写包率信息 > 写包丢包率”中更改告警阈值。 等待5分钟,检查该告警是否恢复。
readFully接口调用失败数高于阈值,会影响上层大数据计算业务的正常执行,导致某些计算任务的执行失败。 可能原因 OBS服务端出现执行异常或严重超时。 处理步骤 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > meta > OBS的readFully接口调用失败总
read接口调用失败数高于阈值,会影响上层大数据计算业务的正常执行,导致某些计算任务的执行失败。 可能原因 OBS服务端出现执行异常或严重超时。 处理步骤 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > meta > OBS的read接口调用失败总数”,将阈值或平滑次数参数的值根据实际情况调大。
处理步骤 端口进程检查。 在FusionInsight Manager页面告警列表中,单击此告警所在行的,查看该告警的主机名。 以omm用户登录RangerAdmin状态异常实例所在节点,执行ps -ef|grep "proc_rangeradmin" | grep -v grep
HDFS服务不可用告警帮助指导处理对应告警。 告警全部恢复后,等待几分钟,检查本告警是否恢复。 是,处理完毕。 否,执行3。 检查所有TokenServer实例。 以omm用户登录TokenServer实例所在节点,执行ps -ef|grep "guardian.token.server.Server"命令查看当前节点是否存在TokenServer进程。
行提交、终止、查看作业等操作;无法成功调用MRS API V2作业管理接口。 可能原因 JobGateway服务所在节点故障。 处理步骤 登录FusionInsight Manager首页,选择“集群 > 服务 > JobGateway > 实例”。进入实例页面查看JobServ
S、DBService要求状态正常,其他组件要求停止服务)。 是,执行7。 否,执行2。 恢复组件状态至要求状态,再一次启动该恢复任务。 登录MRS Manager管理界面,选择“告警管理”。在告警列表中单击该告警所在行,从“定位信息”处获得任务名。 选择“系统设置 > 恢复管理
RS集群客户端。 安装成功后,即可访问OBS。例如,在未开启Kerberos认证的MRS集群的HDFS客户端访问OBS: 以客户端安装用户登录安装客户端的节点。 切换到客户端安装目录并配置环境变量: cd 客户端安装目录 source bigdata_env 在HDFS客户端执行以下命令访问OBS:
序列号 系统产生的告警计数。 附加信息 相关报错信息。 MRS 3.3.0及之后版本:针对监控指标阈值转告警,可以在“附加信息”中查看监控指标值使用情况。 定位信息 定位告警的详细信息。主要包含以下信息: 来源:产品告警的集群 服务名:产生告警的服务名称 角色名:产生告警的角色名称 主机名:产生告警的主机名
为任务申请资源以重启任务。 NodeManager(NM) NM是每个节点上的资源和任务管理器,一方面,它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态;另一方面,它会接收并处理来自AM的Container启动/停止等各种请求。 Container C
Coordinator进程GC时间过长,会影响Coordinator进程运行的性能,甚至造成Coordinator进程不可用。 可能原因 该节点Coordinator进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,单击“运维 >
对系统的影响 Worker进程GC时间过长,会影响Worker进程运行的性能,甚至造成Worker进程不可用。 可能原因 该节点Worker进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,单击“运维 >
//线程提交任务之前: UserGroupInformation.getLoginUser().reloginFromKeytab(); 多个脚本同时使用kinit命令认证同一个用户的场景下,需要在各个脚本中执行kinit命令之前,先执行export KRB5CCNAME=keytab_pa
为任务申请资源以重启任务。 NodeManager(NM) NM是每个节点上的资源和任务管理器,一方面,它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态;另一方面,它会接收并处理来自AM的Container启动/停止等各种请求。 Container C
为任务申请资源以重启任务。 NodeManager(NM) NM是每个节点上的资源和任务管理器,一方面,它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态;另一方面,它会接收并处理来自AM的Container启动/停止等各种请求。 Container C