检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
告警解释 系统每60秒周期性检测Kafka各个Topic的过载情况,当检测到某个Topic在过载磁盘上的Partition数占比超出阈值(默认40%)时,产生该告警。 平滑次数为1,当某个Topic在过载磁盘上的Partition数占比低于阈值(默认40%)时,告警恢复。
ALM-17008 Oozie连接ZooKeeper状态异常 告警解释 在HA模式下,Oozie会依赖ZooKeeper,当检测到与ZooKeeper的连接状态连续3次异常时,产生该告警。 当检测到Oozie连接ZooKeeper状态正常时,告警清除。
ALM-18010 ResourceManager进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测ResourceManager进程的垃圾回收(GC)占用时间,当检测到ResourceManager进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。
ALM-13006 Znode数量或容量超过阈值 告警解释 系统每4小时周期性检测ZooKeeper服务数据目录下二级znode状态,当检测到二级Znode数量或者容量超过阈值时产生该告警。
当检测到NameNode的RPC处理平均时间连续多次(默认为10次)超出阈值范围时,产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > HDFS”修改阈值。
ALM-18021 Mapreduce服务不可用 告警解释 告警模块按60秒周期检测Mapreduce服务状态。当检测到Mapreduce服务不可用时产生该告警。 Mapreduce服务恢复时,告警恢复。
ALM-19019 HBase容灾等待同步的HFile文件数量超过阈值 告警解释 系统每30秒周期性检测每个HBase服务实例RegionServer等待同步的HFile文件数量。
当检测到HBase存在热点限流Region时,上报该告警。 当热点Region请求不再过热,将解除限流,告警清除。 该告警仅适用于MRS 3.3.0及之后版本。
告警解释 系统每30秒周期性检测HetuEngine计算实例的运行任务个数,当检测到HetuEngine计算实例的运行任务个数大于50时产生该告警。 HetuEngine计算实例运行的任务个数小于等于50时,告警清除。
告警解释 系统每30秒周期性检测HetuEngine计算实例的内存负载使用率,当检测到HetuEngine计算实例的内存负载使用率大于80%时产生该告警。 HetuEngine计算实例运行的内存负载使用率小于等于80%时,告警清除。
告警解释 系统每30秒周期性检测HetuEngine计算实例的查询时延,当检测到HetuEngine计算实例的查询时延大于等于60S时产生该告警。 HetuEngine计算实例的查询时延小于60S时,告警清除。
ALM-19007 HBase合并队列超出阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测HBase服务的compaction队列长度,默认当连续3次检测到HBase服务的compaction队列长度超过告警的阈值(默认100)时产生该告警。
ALM-43008 JobHistory进程直接内存使用超出阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测JobHistory进程直接内存使用状态,当检测到JobHistory进程直接内存使用率超出阈值(最大内存的90%)时产生该告警。
ALM-14014 NameNode进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测NameNode进程的垃圾回收(GC)占用时间,当检测到NameNode进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。
ALM-14015 DataNode进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测DataNode进程的垃圾回收(GC)占用时间,当检测到DataNode进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。
ALM-26052 Storm服务可用Supervisor数量小于阈值 告警解释 系统每60秒周期性检测Supervisor数量,并把实际Supervisor数量和阈值相比较。当检测到Supervisor数量低于阈值时产生该告警。
ALM-38009 Broker磁盘IO繁忙(适用于MRS 3.1.0之后版本) 告警解释 系统每60秒周期性检测Kafka各个磁盘的IO情况,当检测到某个Broker上的Kafka数据目录磁盘IO超出阈值(默认80%)时,产生该告警。
告警解释 系统每30秒周期性检测HetuEngine计算实例的平均CPU负载使用率,当检测到HetuEngine计算实例的CPU负载使用率大于90%时产生该告警。 HetuEngine计算实例运行的CPU负载使用率小于等于90%时,告警清除。
ALM-13008 ZooKeeper Znode数量使用率超出阈值 告警解释 系统每小时(MRS 3.5.0及之后版本为“每10分钟”)周期性检测ZooKeeper服务数据目录下二级znode状态,当检测到二级znode的总数量超过阈值时产生该告警。
ALM-14000 HDFS服务不可用 告警解释 系统每60秒周期性检测NameService的服务状态,当检测到所有的NameService服务都异常时,就会认为HDFS服务不可用,此时产生该告警。