检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-38012 Broker的分区数量超过阈值 告警解释 系统每30秒周期性检测Kafka服务每个Broker实例的分区数量。该指标可以在Broker实例监控中查看Partition数目,当检测到某个Broker上的分区数量超过阈值时产生告警。用户可在Manager上选择“运维
3.1.5及之后版本。 告警解释 系统每30s周期性采集Presto Coordinator进程的垃圾收集(GC)时间,当检测到GC时间超出阈值(连续3次检测超过5s)时产生该告警。当 Coordinator进程GC时间小于或等于告警阈值时,告警清除。 告警属性 告警ID 告警级别
ALM-13003 ZooKeeper进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测ZooKeeper进程的垃圾回收(GC)占用时间,当检测到ZooKeeper进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复。
ZooKeeper Znode容量使用率超出阈值 告警解释 系统每小时(MRS 3.5.0及之后版本为“每10分钟”)周期性检测ZooKeeper服务数据目录下二级znode状态,当检测到二级znode的总容量超过阈值时产生该告警。 告警属性 告警ID 告警级别 是否自动清除 13009 重要 是
ALM-13010 配置quota的目录Znode使用率超出阈值 告警解释 系统每小时周期性检测配置quota的所有服务目录的znode数量,当检测到某个二级znode的数量使用率超过阈值时产生该告警。 告警属性 告警ID 告警级别 是否自动清除 13010 重要 是 告警参数 参数名称
ALM-13000 ZooKeeper服务不可用 告警解释 系统每60秒周期性检测ZooKeeper服务状态,当检测到ZooKeeper服务不可用时产生该告警。 ZooKeeper服务恢复时,告警清除。 告警属性 告警ID 告警级别 是否自动清除 13000 紧急 是 告警参数 参数名称
ALM-18012 JobHistoryServer进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测JobHistoryServer进程的垃圾回收(GC)占用时间,当检测到JobHistoryServer进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复。
ALM-14010 NameService服务异常(2.x及以前版本) 告警解释 系统每180秒周期性检测NameService服务状态,当检测到NameService服务不可用时产生该告警。 NameService服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除
HetuEngine计算实例CPU负载使用率超过阈值 本章节适用于MRS 3.3.1及以后版本。 告警解释 系统每30秒周期性检测HetuEngine计算实例的平均CPU负载使用率,当检测到HetuEngine计算实例的CPU负载使用率大于90%时产生该告警。 HetuEngine计算实例运行的C
ALM-43008 JobHistory进程直接内存使用超出阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测JobHistory进程直接内存使用状态,当检测到JobHistory进程直接内存使用率超出阈值(最大内存的90%)时产生该告警。 告警属性 告警ID 告警级别 可自动清除
ALM-26052 Storm服务可用Supervisor数量小于阈值 告警解释 系统每60秒周期性检测Supervisor数量,并把实际Supervisor数量和阈值相比较。当检测到Supervisor数量低于阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称”修改阈值。
ALM-38009 Broker磁盘IO繁忙(适用于MRS 3.1.0之后版本) 告警解释 系统每60秒周期性检测Kafka各个磁盘的IO情况,当检测到某个Broker上的Kafka数据目录磁盘IO超出阈值(默认80%)时,产生该告警。 平滑次数为3,当该磁盘IO低于阈值(默认80%)时,告警恢复。
ALM-14014 NameNode进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测NameNode进程的垃圾回收(GC)占用时间,当检测到NameNode进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复。
ALM-14015 DataNode进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测DataNode进程的垃圾回收(GC)占用时间,当检测到DataNode进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复。
ALM-28001 Spark服务不可用(2.x及以前版本) 告警解释 系统每30秒周期性检测Spark服务状态,当检测到Spark服务不可用时产生该告警。 Spark服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除 28001 致命 是 告警参数 参数名称 参数含义
ALM-43001 Spark服务不可用(2.x及以前版本) 告警解释 系统每60秒周期性检测Spark服务状态,当检测到Spark服务不可用时产生该告警。 Spark服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除 43001 致命 是 告警参数 参数名称 参数含义
ALM-26054 Nimbus堆内存使用率超过阈值 告警解释 系统每30秒周期性检测Storm Nimbus堆内存使用率,并把实际的Storm Nimbus堆内存使用率和阈值相比较。当连续5次检测到Storm Nimbus堆内存使用率超出阈值(默认值为80%)时产生该告警。 用户可通过“运维
ALM-13000 ZooKeeper服务不可用(2.x及以前版本) 告警解释 系统每30秒周期性检测ZooKeeper服务状态,当检测到ZooKeeper服务不可用时产生该告警。 ZooKeeper服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除 13000 致命
ALM-14000 HDFS服务不可用(2.x及以前版本) 告警解释 系统每30秒周期性检测NameService的服务状态,当检测到所有的NameService服务都异常时,就会认为HDFS服务不可用,此时产生该告警。 至少一个NameService服务正常后,系统认为HDFS服务恢复,告警清除。
ALM-18010 ResourceManager进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测ResourceManager进程的垃圾回收(GC)占用时间,当检测到ResourceManager进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复。