检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
进程故障”告警是否已清除。 是,处理完毕。 否,执行2.a。 检查磁盘空间是否不足。 打开MRS集群详情页面,在告警管理页签的告警列表中,查看是否有“ALM-12017 磁盘容量不足”告警产生。 是,执行2.b。 否,执行3。 按ALM-12017 磁盘容量不足(2.x及以前版本)提供的步骤处理该故障。
对系统的影响 导致TagSync响应缓慢。 可能原因 该节点TagSync实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45288 TagSy
产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 Flume证书文件即将失效,对系统目前运行无影响。 可能原因 Flume证书文件即将到期。 处理步骤 查看告警信息。 登录FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-24011 Flume证书文件即将过期
系统当前指标取值满足自定义的告警设置条件 对系统的影响 后续新建立客户端连接可能会阻塞甚至失败。 可能原因 已经和Impala服务端建立的连接过多,或者阈值设定的太小。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 阈值设置 > Impala > 连接数 > 已经连接到Impalad进程的JDBC数量”
不会影响作业继续执行。 可能原因 该节点JDBCServer存在负载高等原因,需客户通过集群采集的系统指标及作业执行情况关注集群健康度。 处理步骤 检查上报告警的JDBCServer实例 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“I
OBS服务端出现执行异常或严重超时。 处理步骤 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > meta > OBS的readFully接口调用失败总数”,将阈值或平滑次数参数的值根据实际情况调大。 观察界面告警是否清除。 是,处理完毕。 否,执行3 联系OBS运维人员查看OBS服务是否正常。
OBS服务端出现执行异常或严重超时。 处理步骤 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > meta > OBS的read接口调用失败总数”,将阈值或平滑次数参数的值根据实际情况调大。 观察界面告警是否清除。 是,处理完毕。 否,执行3。 联系OBS运维人员查看OBS服务是否正常。
导致RangerAdmin响应缓慢。 可能原因 该节点RangerAdmin实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45280 Range
该告警产生原因可能是执行恢复任务前组件状态不满足要求或执行恢复任务中某个步骤出错,执行恢复任务中出错依赖于该任务的详细情况,可以获取日志和任务详情来处理该告警。 处理步骤 查看组件状态 在FusionInsight Manager管理界面,选择“集群 > 待操作集群的名称 > 服务”,查看组件当前
、Flink、Spark等)业务失败。 可能原因 该节点ZooKeeper实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,单击告警“ZooKeeper进程
de进程正常提供服务,用户无法读写文件。 可能原因 该节点NameNode实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,单击告警“ALM-14014 N
de进程正常提供服务,用户无法读写文件。 可能原因 该节点DataNode实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,单击告警“ALM-14015 D
堆内存溢出可能导致服务崩溃,服务崩溃后无法使用Oozie服务调度任务。 可能原因 该节点Oozie实例堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。 处理步骤 检查堆内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > Oozie堆内存使用率超过
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 用户无法使用Kudu服务。 可能原因 存在KuduTserver实例CPU占用率过高。 处理步骤 处理Kudu实例异常 在FusionInsight Manager首页,选择“运维 > 告警”页面,找到“ALM-29106 Tserve
响该Broker进程正常提供服务。 可能原因 该节点Kafka实例进程的垃圾回收时间过长,或配置的直接内存大小不合理,导致进程GC频繁。 处理步骤 检查Broker进程的垃圾回收(GC)时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 >
产生告警的主机名。 磁盘名 产生告警的磁盘名。 对系统的影响 磁盘慢盘故障,导致业务性能下降,阻塞业务的处理能力,严重时可能会导致服务不可用。 可能原因 磁盘老化或者磁盘坏道。 处理步骤 检查磁盘状态。 打开MRS集群详情页面,在实时告警列表中,单击此告警。在“告警详情”区域,获取告警所在主机信息和故障磁盘信息。
数据计算业务的性能,导致某些计算任务的执行时间超过阈值。 可能原因 OBS服务端出现卡顿,或OBS客户端到OBS服务端之间的网络不稳定。 处理步骤 检查堆内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > OBS元数据接口调用平均时
Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 影响任务执行和客户端连接FE。 可能原因 FE堆内存过小。 处理步骤 检查FE堆内存使用率。 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 >
时或操作系统用户缓存同步异常,进而导致组件业务故障。 可能原因 SlapdServer连接数过多。 告警阈值配置或者平滑次数配置不合理。 处理步骤 检查SlapdServer进程连接数是否过多。 登录FusionInsight Manager,选择“集群 > 服务 > LdapS
对系统的影响 集群已经存在的任务无法运行;集群可接收新的Storm任务,但是无法运行。 可能原因 集群中Supervisor处于异常状态。 处理步骤 检查Supervisor状态 选择“集群 > 待操作集群的名称 > 服务 > Storm > Supervisor”,进入Storm服务管理页面。