检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
障,可能会影响弹性扩缩容性能。 tomcat等端口被占用时,会影响Manager页面登录、查看功能。 可能原因 随机端口范围配置被修改。 处理步骤 检查系统当前的随机端口范围。 打开FusionInsight Manager页面,在告警列表中,单击此告警所在行的,查看该告警的主机地址。
量数据,导致依赖顶层目录的上游组件(例如Yarn、Flink、Spark等)业务异常或服务异常。 可能原因 告警目录对应的配额值不合理。 处理步骤 检查告警目录对应的配额值是否合理。 在FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 > ZooKeeper
游组件(例如Yarn、Flink、Spark等)服务异常。 可能原因 客户端大量进程连接到ZooKeeper,或者自定义阈值设置不合理。 处理步骤 检查客户端是否存在大量进程连接ZooKeeper的情况 在FusionInsight Manager首页,选择“运维 > 告警 >
(例如Yarn、Flink、Spark等)的业务异常。 可能原因 往ZooKeeper数据目录空间写入大量数据。 自定义阈值设置不合理。 处理步骤 检查告警目录是否写入大量数据 登录FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 > Zoo
eManager进程正常提供服务。 可能原因 该NodeManager节点实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-18011 NodeM
成内存溢出导致Yarn服务崩溃。 可能原因 该节点NodeManager实例堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。 处理步骤 检查堆内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-18018 NodeManager堆内存使用率超过阈值
ZooKeeper服务不可用”告警产生。 是,执行3。 否,执行5。 参考ALM-13000 ZooKeeper服务不可用的处理步骤处理该故障。 等待几分钟后,在告警列表中查看“HBase热点检测功能不可用”告警是否清除。 是,处理完毕。 否,执行5。 检查HBase服务状态。 在FusionInsight Mana
磁盘配置无法满足业务需求,磁盘使用率达到上限。 处理步骤 登录MRS Manager,查看该告警阈值是否不合理。 默认90%为合理值,用户可以根据自己的实际需求调节。 是,执行2。 否,执行1.b。 根据实际服务的使用情况在“系统设置 > 阈值配置”中更改告警阈值。 等待2分钟,查看告警是否消失。 是,处理完毕。 否,执行2。
产生告警的主机名。 磁盘名 产生告警的磁盘名。 对系统的影响 磁盘慢盘故障,导致业务性能下降,阻塞业务的处理能力,严重时可能会导致服务不可用。 可能原因 磁盘老化或者磁盘坏道。 处理步骤 检查磁盘状态。 打开MRS集群详情页面,在实时告警列表中,单击此告警。在“告警详情”区域,获取告警所在主机信息和故障磁盘信息。
Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 影响任务执行和客户端连接FE。 可能原因 FE堆内存过小。 处理步骤 检查FE堆内存使用率。 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 >
是,执行2。 否,执行4。 参考ALM-12014 设备分区丢失或ALM-12033 慢盘故障告警进行处理,查看对应告警是否清除。 是,执行3。 否,执行4。 等待五分钟,检查该告警是否恢复。 是,处理完毕。 否,执行4。 修改磁盘权限 在“运维 > 告警 > 告警”页面,查看该告警的“定位
HetuEngine计算实例任务失败率过高,会影响业务的正常运行,需及时排查问题并处理。 可能原因 计算实例资源配置过小。 业务存在大SQL任务,占用过多计算资源,导致其他提交的任务无资源可用,整个计算实例响应变慢,造成任务积压。 处理步骤 检查计算实例资源配置是否合理 使用可访问HetuEngine
数据计算业务的性能,导致某些计算任务的执行时间超过阈值。 可能原因 OBS服务端出现卡顿,或OBS客户端到OBS服务端之间的网络不稳定。 处理步骤 检查堆内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > OBS元数据接口调用平均时
直接内存溢出可能导致服务崩溃。 可能原因 节点RangerAdmin实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45278 Ra
对系统的影响 堆内存溢出可能导致服务崩溃。 可能原因 该节点TagSync实例堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45285 TagSync堆内存使用率
对系统的影响 堆内存溢出可能导致服务崩溃。 可能原因 该节点PolicySync实例堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45289 PolicySync堆内存
产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 无 可能原因 Presto实例线程数量过大。 Presto并发执行的任务过多。 处理步骤 检查任务并发量 检查当前集群CPU负载是否正常,SQL并发量是否符合预期。 是,执行2。 否,执行4。 调整线程数告警触发阈值。 在FusionInsight
ConfigNode进程的垃圾回收(GC)时间过长,可能导致该ConfigNode进程数据读写性能下降。 可能原因 该节点配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查堆内存配置。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,在实时告警列表中,单击此告警前
时或操作系统用户缓存同步异常,进而导致组件业务故障。 可能原因 SlapdServer连接数过多。 告警阈值配置或者平滑次数配置不合理。 处理步骤 检查SlapdServer进程连接数是否过多。 登录FusionInsight Manager,选择“集群 > 服务 > LdapS
对系统的影响 集群已经存在的任务无法运行;集群可接收新的Storm任务,但是无法运行。 可能原因 集群中Supervisor处于异常状态。 处理步骤 检查Supervisor状态 选择“集群 > 待操作集群的名称 > 服务 > Storm > Supervisor”,进入Storm服务管理页面。