检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-18021 Mapreduce服务不可用 告警解释 告警模块按60秒周期检测Mapreduce服务状态。当检测到Mapreduce服务不可用时产生该告警。 Mapreduce服务恢复时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 18021 紧急 是 告警参数
HBase容灾等待同步的HFile文件数量超过阈值 告警解释 系统每30秒周期性检测每个HBase服务实例RegionServer等待同步的HFile文件数量。该指标可以在RegionServer角色监控界面查看,当检测到某个RegionServer上的等待同步HFile文件数量超出阈值(
告警解释 HBase服务安装MetricController实例时,热点自愈功能自动开启,告警模块按120秒周期检测HBase是否存在因为热点问题被限制请求流量的Region。当检测到HBase存在热点限流Region时,上报该告警。 当热点Region请求不再过热,将解除限流,告警清除。
ALM-23007 Loader进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测Loader进程的垃圾回收(GC)占用时间,当连续5次检测到Loader进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。垃圾回收(GC)时间小于阈值时,告警恢复。 告警属性
ALM-38007 Kafka默认用户状态异常 告警解释 系统每60秒周期性检测Kafka服务默认用户,当检测到该用户异常时发送此告警。 平滑次数为1,当用户状态恢复后,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 38007 紧急 是 告警参数 参数名称 参数含义 来源
ALM-45292 PolicySync垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测PolicySync进程的垃圾回收(GC)占用时间,当连续5次检测到PolicySync进程的垃圾回收(GC)时间超出阈值时,产生该告警。垃圾回收(GC)时间小于阈值时,告警恢复。
ALM-43008 JobHistory进程直接内存使用超出阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测JobHistory进程直接内存使用状态,当检测到JobHistory进程直接内存使用率超出阈值(最大内存的90%)时产生该告警。 告警属性 告警ID 告警级别 可自动清除
ALM-14014 NameNode进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测NameNode进程的垃圾回收(GC)占用时间,当检测到NameNode进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复。
ALM-14015 DataNode进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测DataNode进程的垃圾回收(GC)占用时间,当检测到DataNode进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复。
ALM-18020 Yarn任务执行超时 告警解释 系统每15分钟周期性检测提交到Yarn上的Mapreduce和Spark应用任务(JDBC常驻任务除外),当检测到任务执行时间超过用户指定的超时时间时,产生该告警,但任务仍继续正常执行。其中,Mapreduce的客户端超时参数为“mapreduce
ALM-26052 Storm服务可用Supervisor数量小于阈值 告警解释 系统每60秒周期性检测Supervisor数量,并把实际Supervisor数量和阈值相比较。当检测到Supervisor数量低于阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称”修改阈值。
ALM-38009 Broker磁盘IO繁忙(适用于MRS 3.1.0之后版本) 告警解释 系统每60秒周期性检测Kafka各个磁盘的IO情况,当检测到某个Broker上的Kafka数据目录磁盘IO超出阈值(默认80%)时,产生该告警。 平滑次数为3,当该磁盘IO低于阈值(默认80%)时,告警恢复。
ALM-12043 DNS解析时长超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测DNS解析时长,并把DNS解析时长和阈值(系统默认阈值20000ms)进行比较,当检测到DNS解析时长连续多次(默认值为2)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 >
ALM-13004 ZooKeeper堆内存使用率超过阈值 告警解释 系统每60秒周期性检测ZooKeeper服务堆内存使用状态,当检测到ZooKeeper实例堆内存使用率超出阈值(最大内存的95%)时产生该告警。 堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别
ALM-18003 NodeManager不健康 告警解释 系统每30秒周期性检测不健康NodeManager节点,并把不健康节点数和阈值相比较。“不健康的节点数”指标默认提供一个阈值。当检测到“不健康的节点数”的值超出阈值时产生该告警。 用户可通过选择“集群 > 待操作集群的名称
ALM-19018 HBase合并队列超出阈值 告警解释 系统每30秒周期性检测HBase服务的compaction队列长度,默认当连续3次检测到HBase服务的compaction队列长度超过告警的阈值(默认100)时产生该告警。当compaction队列长度小于告警的阈值时,告警恢复。
ALM-29107 Tserver进程内存使用百分比超过阈值 告警解释 系统每60秒周期性检测Kudu的服务状态,当检测到Kudu Tserver进程内存使用百分比超过阈值,此时产生该告警。 Tserver进程内存使用百分比正常时,系统认为Kudu实例服务恢复,告警清除。 告警属性
QAS磁盘容量不足 本章节适用于MRS 3.3.0及以后版本。 告警解释 系统按60秒周期检测HetuEngine QAS磁盘空间使用率,并把实际磁盘使用率和阈值相比较。磁盘使用率默认提供一个阈值范围。当检测到磁盘使用率高于阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置”,在
ALM-45589 ConfigNode堆内存使用率超过阈值 告警解释 系统每60秒周期性检测ConfigNode进程堆内存使用状态,当检测到ConfigNode进程堆内存使用率超出阈值(最大内存的90%)时产生该告警。当ConfigNode进程堆内存使用率小于阈值时,告警清除。
ALM-13008 ZooKeeper Znode数量使用率超出阈值 告警解释 系统每小时周期性检测ZooKeeper服务数据目录下二级znode状态,当检测到二级znode的总数量超过阈值时产生该告警。 告警属性 告警ID 告警级别 是否自动清除 13008 重要 是 告警参数