检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
能导致业务无法正常访问OBS。 可能原因 节点TokenServer实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45738 To
OBS数据读操作接口调用成功率小于阈值,会影响上层大数据计算业务的正常执行,导致某些计算任务的执行失败。 可能原因 OBS服务端出现执行异常或严重超时。 处理步骤 检查堆内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > OBS数据读操作接口调用成
对系统的影响 直接内存溢出可能导致服务崩溃。 可能原因 节点UserSync实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45282 Us
产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 无 可能原因 Presto实例线程数量过大。 Presto并发执行的任务过多。 处理步骤 检查任务并发量 检查当前集群CPU负载是否正常,SQL并发量是否符合预期。 是,执行2。 否,执行4。 调整线程数告警触发阈值。 在FusionInsight
异常的文件路径或者名称。 对系统的影响 导致系统功能不可用。 可能原因 用户手动修改了文件权限、用户和用户组等信息或者系统异常下电等原因。 处理步骤 检查异常文件权限。 登录MRS集群详情页面,选择“告警管理”。 查看该告警的详细信息,查看定位信息中对应的“HostName”字段值
是,执行2。 否,执行4。 参考ALM-14001 HDFS磁盘空间使用率超过阈值进行处理,查看对应告警是否清除。 是,执行3。 否,执行11。 在“运维 > 告警 > 告警”页面查看本告警是否清除。 是,处理完毕。 否,执行4。 检查DataNode节点平衡状态。 在FusionInsight
否,执行9。 分别参考ALM-12006 节点故障、ALM-12007 进程故障、ALM-14002 DataNode磁盘空间使用率超过阈值的处理步骤处理告警。 查看本告警是否恢复。 是,操作结束。 否,执行9。 收集故障信息。 在FusionInsight Manager首页,选择“运维
可能原因 该节点Mapreduce JobHistoryServer实例堆内存使用量过大,或分配的堆内存不合理,导致使用量超过阈值。 处理步骤 检查内存使用量。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > MapReduce JobH
ver进程正常提供服务。 可能原因 该节点JobHistoryServer实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-18012 JobHi
ResourceManager堆内存使用率超过阈值”。 是,查看“ALM-18008 ResourceManager堆内存使用率超过阈值”进行处理。 否,执行8。 观察界面告警是否清除。 是,处理完毕。 否,执行9。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
arn服务不可用。 可能原因 该节点Yarn NodeManager实例非堆内存使用量过大,或分配的非堆内存不合理,导致使用量超过阈值。 处理步骤 检查非堆内存使用量。 在FusionInsight Manager界面,选择“运维 > 告警 > 告警 > ALM-18017 Yarn
根据对应服务不可用告警帮助提供的故障处理对应告警。 告警全部恢复后,等待几分钟,检查本告警是否恢复。 是,处理完毕。 否,执行2。 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
否,执行4。 等待30秒,查看告警是否恢复。 是,处理完毕。 否,执行4。 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
根据对应服务不可用告警帮助文档处理对应告警。 告警全部恢复后,等待几分钟,检查本告警是否恢复。 是,处理完毕。 否,执行2。 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
是,执行3。 否,执行5。 参考“ALM-12033 慢盘故障”或“ALM-12063 磁盘不可用”的处理步骤处理该故障。 等待几分钟后,在告警列表中查看该告警是否清除。 是,处理完毕。 否,执行5。 检查RegionServer GC是否异常。 在FusionInsight Ma
对系统的影响 导致Flume数据传输效率低下。 可能原因 该节点Flume实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > Flume进程垃圾回收(GC)
产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 无 可能原因 Presto实例线程数量过大。 Presto并发执行的任务过多。 处理步骤 检查任务并发量 检查当前集群CPU负载是否正常,SQL并发量是否符合预期。 是,执行2。 否,执行4。 调整线程数告警触发阈值。 在FusionInsight
产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 已创建的用户在本节点无操作权限。 可能原因 扩容过程中已有节点停止或故障。 处理步骤 在FusionInsight Manager首页,选择“集群 > 服务 > ClickHouse > 实例”。 查看是否有停止、退服或故障的实例。
占用服务器资源,ClickHouse服务的性能下降。 数据不一致。 可能原因 数据量过大,导致mutation任务执行缓慢或者mutation任务执行卡住。 处理步骤 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,查看当前告警“定位信息”中的角色名以及确认主机名所在的IP地址。
x及以前版本)对ZooKeeper服务状态异常进行处理,然后查看ZooKeeper服务的健康状态是否恢复为“良好”。 是,执行1.c。 否,执行3。 等待5分钟后,在“告警管理”页面,查看本告警是否恢复。 是,处理完毕。 否,执行2.a。 处理NameService服务异常告警。 登录M