检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-13007 ZooKeeper客户端可用连接数不足 告警解释 系统每60秒周期性检测ZooKeeper客户端连接到ZooKeeper服务器上的活动进程数,当检测到连接数目超过阈值时产生该告警。 告警属性 告警ID 告警级别 是否自动清除 13007 次要 是 告警参数 参数名称
HBase容灾等待同步的wal文件数量超过阈值 告警解释 系统每30秒周期性检测每个HBase服务实例RegionServer等待同步的wal文件数量。该指标可以在RegionServer角色监控界面查看,当检测到某个RegionServer上的等待同步wal文件数量超出阈值(默认连
ALM-28001 Spark服务不可用(2.x及以前版本) 告警解释 系统每30秒周期性检测Spark服务状态,当检测到Spark服务不可用时产生该告警。 Spark服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除 28001 致命 是 告警参数 参数名称 参数含义
ALM-43001 Spark服务不可用(2.x及以前版本) 告警解释 系统每60秒周期性检测Spark服务状态,当检测到Spark服务不可用时产生该告警。 Spark服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除 43001 致命 是 告警参数 参数名称 参数含义
ALM-13000 ZooKeeper服务不可用 告警解释 系统每60秒周期性检测ZooKeeper服务状态,当检测到ZooKeeper服务不可用时产生该告警。 ZooKeeper服务恢复时,告警清除。 告警属性 告警ID 告警级别 是否自动清除 13000 紧急 是 告警参数 参数名称
ALM-18012 JobHistoryServer进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测JobHistoryServer进程的垃圾回收(GC)占用时间,当检测到JobHistoryServer进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复。
ALM-13000 ZooKeeper服务不可用(2.x及以前版本) 告警解释 系统每30秒周期性检测ZooKeeper服务状态,当检测到ZooKeeper服务不可用时产生该告警。 ZooKeeper服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除 13000 致命
ALM-14010 NameService服务异常(2.x及以前版本) 告警解释 系统每180秒周期性检测NameService服务状态,当检测到NameService服务不可用时产生该告警。 NameService服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除
ALM-14010 NameService服务异常 告警解释 系统每180秒周期性检测NameService服务状态,当检测到NameService服务不可用时产生该告警。 NameService服务恢复时,告警清除。 告警属性 告警ID 告警级别 是否自动清除 14010 重要
ALM-38010 存在单副本的Topic 告警解释 系统在Kafka的Controller所在节点上,每60秒周期性检测各个Topic的副本数,当检测到某个Topic的副本数为1时,产生该告警。 告警属性 告警ID 告警级别 是否自动清除 38010 重要 否 告警参数 参数名称
ALM-45179 OBS readFully接口调用失败数高于阈值 告警解释 系统每30秒周期性检测OBS readFully接口调用失败数是否高于阈值,当检测到大于所设置阈值时就会产生该告警 。 当OBS readFully接口调用失败数小于阈值时,该告警会自动清除。 告警属性
ALM-45434 ClickHouse组件数据表中存在单副本 告警解释 ClickHouse组件开启自定义逻辑集群后,当检测到某个自定义逻辑集群存在单副本时,系统产生此告警。 当检测到自定义逻辑集群使用多副本时,告警自动清除。 告警属性 告警ID 告警级别 是否自动清除 45434 重要 是
ALM-45591 ConfigNode直接内存使用率超过阈值 告警解释 系统每60秒周期性检测ConfigNode进程直接内存使用状态,当连续5次检测到ConfigNode实例直接内存使用率超出阈值时,产生该告警,即当前ConfigNode设置的直接内存无法满足当前Config
NodeManager磁盘可用率低于阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测NodeManager各个节点的可用磁盘空间,并把磁盘可用率和阈值相比较。“NodeManager磁盘可用率”指标默认提供一个阈值范围。当检测到实际“NodeManager磁盘可用率”的值低于阈值范围时产生该告警。
Storm服务可用Supervisor数量小于阈值(2.x及以前版本) 告警解释 系统每60秒周期性检测Supervisor数量,并把实际Supervisor数量和阈值相比较。当检测到Supervisor数量低于阈值时产生该告警。 用户可通过“系统设置 > 阈值配置”修改阈值。 当
ALM-43007 JobHistory进程非堆内存使用超出阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测JobHistory进程非堆内存使用状态,当检测到JobHistory进程非堆内存使用率超出阈值(最大内存的90%)时产生该告警。 告警属性 告警ID 告警级别 可自动清除
ALM-14022 NameNode RPC队列平均时间超过阈值 告警解释 系统每30秒周期性检测NameNode的RPC队列平均时间,并把实际的NameNode的RPC队列平均时间和阈值(默认为200ms)相比较。当检测到NameNode的RPC队列平均时间连续多次(默认为10次)超出阈值范围时,产生该告警。
连接到MetaStore的session数占最大允许数的百分比超过阈值 告警解释 系统每30秒周期性检测连接到MetaStore的session数占MetaStore允许的最大session数的百分比,当检测到百分比指标超过阈值范围时产生该告警。 当连接到MetaStore的session数占
ALM-19021 RegionSever handler 使用率超过阈值 告警解释 系统每30秒周期性检测每个HBase服务实例RegionServer的handler使用率。当检测到某个RegionServer上的handler使用率超出阈值(默认连续5次超过默认阈值90%)时产
ALM-38008 Kafka数据目录状态异常 告警解释 系统每60秒周期性检测Kafka数据目录状态,当检测到某数据目录状态异常时产生该告警。 平滑次数为1,当数据目录状态恢复正常后,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 38008 重要 是 告警参数 参数名称