检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-38012 Broker的分区数量超过阈值 告警解释 系统每30秒周期性检测Kafka服务每个Broker实例的分区数量。该指标可以在Broker实例监控中查看Partition数目,当检测到某个Broker上的分区数量超过阈值时产生告警。用户可在Manager上选择“运维
HetuEngine计算实例CPU负载使用率超过阈值 本章节适用于MRS 3.3.1及以后版本。 告警解释 系统每30秒周期性检测HetuEngine计算实例的平均CPU负载使用率,当检测到HetuEngine计算实例的CPU负载使用率大于90%时产生该告警。 HetuEngine计算实例运行的C
ALM-14014 NameNode进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测NameNode进程的垃圾回收(GC)占用时间,当检测到NameNode进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复。
ALM-14015 DataNode进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测DataNode进程的垃圾回收(GC)占用时间,当检测到DataNode进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复。
ALM-18020 Yarn任务执行超时 告警解释 系统每15分钟周期性检测提交到Yarn上的Mapreduce和Spark应用任务(JDBC常驻任务除外),当检测到任务执行时间超过用户指定的超时时间时,产生该告警,但任务仍继续正常执行。其中,Mapreduce的客户端超时参数为“mapreduce
ALM-43008 JobHistory进程直接内存使用超出阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测JobHistory进程直接内存使用状态,当检测到JobHistory进程直接内存使用率超出阈值(最大内存的90%)时产生该告警。 告警属性 告警ID 告警级别 可自动清除
ALM-45280 RangerAdmin垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测RangerAdmin进程的垃圾回收(GC)占用时间,当连续5次检测到RangerAdmin进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。垃圾回收(GC)时间小于阈值时,告警恢复。
ALM-13007 ZooKeeper客户端可用连接数不足 告警解释 系统每60秒周期性检测ZooKeeper客户端连接到ZooKeeper服务器上的活动进程数,当检测到连接数目超过阈值时产生该告警。 告警属性 告警ID 告警级别 是否自动清除 13007 次要 是 告警参数 参数名称
HBase容灾等待同步的wal文件数量超过阈值 告警解释 系统每30秒周期性检测每个HBase服务实例RegionServer等待同步的wal文件数量。该指标可以在RegionServer角色监控界面查看,当检测到某个RegionServer上的等待同步wal文件数量超出阈值(默认连
ALM-12050 网络写吞吐率超过阈值 告警解释 系统每30秒周期性检测网络写吞吐率,并把实际吞吐率和阈值(系统默认阈值80%)进行比较,当检测到网络写吞吐率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机 >
ALM-12051 磁盘Inode使用率超过阈值 告警解释 系统每30秒周期性检测磁盘Inode使用率,并把实际Inode使用率和阈值(系统默认阈值80%)进行比较,当检测到Inode使用率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 >
ALM-12053 主机文件句柄使用率超过阈值 告警解释 系统每30秒周期性检测主机文件句柄使用率,并把实际使用率和阈值(系统默认阈值80%)进行比较,当检测到主机文件句柄使用率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称
ALM-14002 DataNode磁盘空间使用率超过阈值 告警解释 系统每30秒周期性检测DataNode磁盘空间使用率,并把实际磁盘使用率和阈值相比较。DataNode磁盘空间使用率指标默认提供一个阈值范围。当检测到DataNode磁盘空间使用率指标超出阈值范围时产生该告警。 用户可通过“运维
ALM-14026 DataNode块数超过阈值 告警解释 系统每30秒周期性检测每个DataNode上的块数,当检测到当前的DataNode节点上块数超过阈值时产生该告警。 如果平滑次数为1,DataNode节点上的块数小于或等于阈值时,告警恢复;如果平滑次数大于1,DataN
ALM-14027 DataNode磁盘故障 告警解释 系统每60秒周期性检测DataNode节点上的磁盘状况,当检测到有磁盘出现故障时产生该告警。 当DataNode上故障磁盘都恢复正常后,手动清除该告警,并重启该DataNode。 告警属性 告警ID 告警级别 是否自动清除 14027
ALM-17006 Oozie直接内存使用率超过阈值 告警解释 系统每30秒周期性检测Oozie服务直接内存使用状态,当检测到Oozie实例直接内存使用率超出阈值(最大内存的80%)时,产生该告警。当Oozie直接内存使用率小于或等于阈值时,告警恢复。 告警属性 告警ID 告警级别
ALM-19013 region处在RIT状态的时长超过阈值 告警解释 系统按300秒周期性检测HBase上的region处在RIT状态的数量。当检测到处在RIT状态的region时长超过阈值时长(连续两次超过阈值),上报该告警。当处在超时状态的region都恢复后,告警恢复。 告警属性
ALM-19030 RegionServer的RPC请求处理时间的P99超过阈值 告警解释 系统每30秒周期性检测每个HBase服务的RegionServer实例的RPC请求处理时间的P99,当检测到某个RegionServer上的RPC请求处理时间的P99连续10次超出阈值时产生该告警。 当
ALM-19033 RegionServer的RPC读队列数超过阈值 告警解释 系统每30秒周期性检测每个HBase服务的RegionServer实例的RPC读队列待处理任务个数,当检测到某个RegionServer上的RPC读队列待处理任务个数连续10次超出阈值时产生该告警。 当
ALM-24009 Flume Server垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测Flume进程的垃圾回收(GC)占用时间,当连续5次检测到Flume进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。垃圾回收(GC)时间小于阈值时,告警恢复。