检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
导致业务无法正常访问OBS。 可能原因 该节点TokenServer实例非堆内存使用率过大,或配置的非堆内存不合理,导致使用率超过阈值。 处理步骤 检查非堆内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45739 To
若CPU使用率超过阈值,扩容CPU。 检查该告警是否恢复。 是,处理完毕。 否,执行3。 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
若内存使用率超过阈值,扩容内存。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行2。 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
系统每天零点开始,每8小时检测当前系统中ommdba用户和密码是否过期,如果用户或密码即将在15天内过期,则发送告警。 当系统中ommdba用户过期的期限修改或密码重置,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12032 次要 是 告警参数 参数名称 参数含义 ServiceName 产生告警的服务名称。
对系统的影响 ZooKeeper可用连接数不足,当连接率超过百分之百时无法处理外部连接。 可能原因 该节点ZooKeeper连接量过大,超过阈值。某些连接进程存在连接泄露,或配置的最大连接数不符合实际使用场景。 处理步骤 检查连接状态。 在MRS集群详情页,单击“告警管理 > 13001连接数不足
联系运维人员处理网络故障,故障恢复后等待5分钟,查看告警是否清除。 是,处理完毕。 否,执行4。 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
在告警列表中,查看是否有“ALM-18000 Yarn服务不可用”产生。 是,执行2.c。 否,执行3。 参考ALM-18000 Yarn服务不可用(2.x及以前版本)的处理步骤处理该故障。 再次执行MapReduce任务命令,查看MapReduce任务是否能成功执行。 是,执行2.e。 否,执行4。 在告警列表中
否,执行2.e。 按照ALM-12004 OLdap资源异常(2.x及以前版本)提供的步骤处理该告警。 在告警列表中查看“ALM-25004 LdapServer数据同步异常”告警是否清除。 是,处理完毕。 否,执行2.e。 在MRS Manager的“告警管理”页面,查看是否有LdapServer的ALM-12007
对系统的影响 用户无法执行新的Storm任务。 可能原因 集群中Supervisor处于异常状态。 集群中Supervisor的状态正常,但是处理能力不足。 处理步骤 检查Supervisor状态。 登录MRS集群详情页面,选择“组件管理”。 选择“Storm > Supervisor”,进入Storm服务管理页面。
可能导致上层服务无法连接DBService的数据库,影响正常业务。 可能原因 数据库连接数使用过多。 数据库连接数最大值设置不合理。 告警阈值配置或者平滑次数配置不合理。 处理步骤 检查数据连接数是否使用过多 在FusionInsight Manager主页,单击左侧服务列表的DBService服务,进入DBService监控页面。
5倍速率调大。若告警次数比较频繁,可以按1倍速率调大。多业务量、高并发的情况可以考虑增加实例。 重启所有的JDBCServer2x实例。 重启实例期间实例不可用,当前实例节点的任务会执行失败。 等待10分钟,观察界面告警是否清除。 是,处理完毕。 否,执行6。 收集故障信息 在FusionInsight
对系统的影响 跨空间合并任务超时,会阻塞写数据,导致写操作的性能下降。 可能原因 该节点IoTDB跨空间合并任务较慢,需要进一步分析日志查看。 处理步骤 收集故障信息。 在FusionInsight Manager页面,选择“运维 > 告警 > 告警”,在实时告警列表中,单击此告警前的
n组件的时间会变长,可能达到小时级别;用户新添加任务提交到Yarn组件的时间变长,可能达到小时级别。 可能原因 瞬时提交作业的数量过多。 处理步骤 登录FusionInsight Manager,选择“集群 > 服务 > JobGateway ”。 选择“实例”页签,单击“添加实
64位系统:4194304(2的22次方) 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行2。 检查系统环境是否异常。 联系运维人员,检查操作系统是否存在异常。 是,恢复操作系统故障,执行2.b。 否,执行3。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行3。 收集故障信息。 在MRS Manager界面,单击“系统设置
等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行2。 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
等待5分钟后,单击“告警管理”,查看该告警是否恢复。 是,处理完毕。 否,执行3。 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
b主机名一致。 是,执行1.e。 否,执行2.a。 按ALM-12006 节点故障提供的步骤处理该告警。 在告警列表中查看“ALM-25500 KrbServer服务不可用”告警是否清除。 是,处理完毕。 否,执行3。 检查OLdap服务是否不可用。 登录MRS集群详情页面,选择“告警管理”。
阈值”告警。 是,执行2。 否,执行4。 参考“ALM-16005 Hive服务进程堆内存使用超出阈值”的处理步骤处理该故障。 在告警列表中,查看该告警是否清除。 是,处理完毕。 否,执行4。 查看元数据库是否异常。 联系集群元数据库管理员查看元数据库是否有异常。 是,执行5。 否,执行6。
信息”中的“服务名”为当前HBase服务的告警。 是,单击对应告警右侧的“查看帮助”并按照帮助文档进行处理,执行8。 否,执行9。 等待5分钟,观察界面告警是否清除。 是,处理完毕。 否,执行9。 收集故障信息 在FusionInsight Manager界面,选择“运维 > 日志
“定位信息”中的“服务名”为当前HBase服务的告警。 是,单击对应告警右侧的“查看帮助”并按照帮助文档进行处理,执行8。 否,执行9。 观察界面告警是否清除。 是,处理完毕。 否,执行9。 收集故障信息 在FusionInsight Manager界面,选择“运维 > 日志 >