检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
OMS主要进程不可用,OMS任务执行变慢或失败。 可能原因 该节点OMS主要进程内存使用率过大,或配置的内存不合理,导致使用率超过阈值。 处理步骤 检查进程内存使用率。 在FusionInsight Manager界面,选择“运维 > 告警 > 告警”,在告警列表中展开此告警的详
目录继续写入文件。一旦超过该目录分配的最大存储空间,则HDFS写入数据会失败。 可能原因 告警阈值配置不合理。 租户分配的空间容量不合理 处理步骤 查看阈值设置是否合理 查看告警定位信息,获取上报告警的租户名称,租户目录。 在FusiongInsight Manager首页,在“
入文件。一旦超过该目录分配的最大文件对象个数,则HDFS写入数据会失败。 可能原因 告警阈值配置不合理。 租户分配的文件目录数上限不合理 处理步骤 查看阈值设置是否合理 查看告警定位信息,获取上报告警的租户名称,租户目录。 在FusiongInsight Manager首页,单击
导致Oozie调度任务响应变慢直至服务不可用。 可能原因 该节点Oozie实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > Oozie进程垃圾回收(GC)
产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 Flume证书文件即将失效,对系统目前运行无影响。 可能原因 Flume证书文件即将到期。 处理步骤 查看告警信息。 登录FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-24011 Flume证书文件即将过期
系统当前指标取值满足自定义的告警设置条件 对系统的影响 后续新建立客户端连接可能会阻塞甚至失败。 可能原因 已经和Impala服务端建立的连接过多,或者阈值设定的太小。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 阈值设置 > Impala > 连接数 > 已经连接到Impalad进程的JDBC数量”
不会影响作业继续执行。 可能原因 该节点JDBCServer存在负载高等原因,需客户通过集群采集的系统指标及作业执行情况关注集群健康度。 处理步骤 检查上报告警的JDBCServer实例 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“I
OBS服务端出现执行异常或严重超时。 处理步骤 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > meta > OBS的readFully接口调用失败总数”,将阈值或平滑次数参数的值根据实际情况调大。 观察界面告警是否清除。 是,处理完毕。 否,执行3 联系OBS运维人员查看OBS服务是否正常。
OBS服务端出现执行异常或严重超时。 处理步骤 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > meta > OBS的read接口调用失败总数”,将阈值或平滑次数参数的值根据实际情况调大。 观察界面告警是否清除。 是,处理完毕。 否,执行3。 联系OBS运维人员查看OBS服务是否正常。
导致RangerAdmin响应缓慢。 可能原因 该节点RangerAdmin实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45280 Range
对系统的影响 导致TagSync响应缓慢。 可能原因 该节点TagSync实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45288 TagSy
产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 无 可能原因 Presto实例线程数量过大。 Presto并发执行的任务过多。 处理步骤 检查任务并发量 检查当前集群CPU负载是否正常,SQL并发量是否符合预期。 是,执行2。 否,执行4。 调整线程数告警触发阈值。 在FusionInsight
过阈值时,可能是该作业处于亚健康状态,具体原因可能有: 作业TaskManager内存不足。 状态过大导致CheckPoint时间过长。 处理步骤 使用具有FlinkServer管理操作权限的用户登录Manager。 选择“运维 > 告警 > 告警 > ALM-45639 Fli
Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务进程响应缓慢或不可用。 可能原因 告警阈值配置或者平滑次数配置不合理。 处理步骤 检查告警阈值配置或者平滑次数配置是否合理。 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称
进程故障”告警是否已清除。 是,处理完毕。 否,执行2.a。 检查磁盘空间是否不足。 打开MRS集群详情页面,在告警管理页签的告警列表中,查看是否有“ALM-12017 磁盘容量不足”告警产生。 是,执行2.b。 否,执行3。 按ALM-12017 磁盘容量不足(2.x及以前版本)提供的步骤处理该故障。
产生告警的主机名。 对系统的影响 Flume证书文件已过期,功能受限,Flume客户端将无法访问Flume服务端。 可能原因 Flume证书文件已过期。 处理步骤 查看告警信息。 登录FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-24012 Flume证书文件已过期
查看告警信息里的主机名是否和1主机名一致。 是,执行4。 否,执行6。 按“ALM-12006 节点故障”提供的步骤处理该告警。 在告警列表中查看“LdapServer服务不可用”告警是否清除。 是,处理完毕。 否,执行10。 检查LdapServer进程是否正常。 选择“运维 > 告警 > 告警”
系统当前指标取值满足自定义的告警设置条件 对系统的影响 查询可能会阻塞甚至失败。 可能原因 该Impalad服务维护的查询数量过多,或者阈值设定的太小。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 阈值设置 > Impala > 查询任务总数统计 > 等待中的查询总数”,检查阈值大小。
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 内存使用过高,部分查询任务可能因为内存不足而失败。 可能原因 该节点实例内存使用率过大,或配置的内存不合理。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 阈值设置 > Impala > CPU和内存 > Cat
ALM-16004 Hive服务不可用 是,执行3。 否,执行4。 根据对应服务不可用告警帮助提供的故障处理对应告警。 告警全部恢复后,等待几分钟,检查本告警是否恢复。 是,处理完毕。 否,执行4。 检查NameNode节点内存是否不足。 检查NameNode节点内存,查看是否有节点存在内存不足的问题。