检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本章节仅适用于MRS 3.1.5及之后版本。 告警解释 系统每30s周期性采集Presto Worker进程的垃圾收集(GC)时间,当检测到GC时间超出阈值(连续3次检测超过5s)时产生该告警;当Worker进程GC时间小于或等于告警阈值时,告警清除。 告警属性 告警ID 告警级别 可自动清除
ClickHouse集群配置说明 背景介绍 ClickHouse通过多分片多副本的部署架构实现了集群的高可用,每个集群定义多个分片,每个分片具有2个或2个以上副本。当某节点故障时,分片内其他主机节点上的副本可替代工作,保证服务能正常运行,提高集群的稳定性。 本章节仅适用于MRS 3
ALM-38008 Kafka数据目录状态异常 告警解释 系统每60秒周期性检测Kafka数据目录状态,当检测到某数据目录状态异常时产生该告警。 平滑次数为1,当数据目录状态恢复正常后,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 38008 重要 是 告警参数 参数名称
ALM-38010 存在单副本的Topic 告警解释 系统在Kafka的Controller所在节点上,每60秒周期性检测各个Topic的副本数,当检测到某个Topic的副本数为1时,产生该告警。 告警属性 告警ID 告警级别 是否自动清除 38010 重要 否 告警参数 参数名称
ALM-45179 OBS readFully接口调用失败数高于阈值 告警解释 系统每30秒周期性检测OBS readFully接口调用失败数是否高于阈值,当检测到大于所设置阈值时就会产生该告警 。 当OBS readFully接口调用失败数小于阈值时,该告警会自动清除。 告警属性
ALM-45434 ClickHouse组件数据表中存在单副本 告警解释 ClickHouse组件开启自定义逻辑集群后,当检测到某个自定义逻辑集群存在单副本时,系统产生此告警。 当检测到自定义逻辑集群使用多副本时,告警自动清除。 告警属性 告警ID 告警级别 是否自动清除 45434 重要 是
ALM-45591 ConfigNode直接内存使用率超过阈值 告警解释 系统每60秒周期性检测ConfigNode进程直接内存使用状态,当连续5次检测到ConfigNode实例直接内存使用率超出阈值时,产生该告警,即当前ConfigNode设置的直接内存无法满足当前Config
NodeManager磁盘可用率低于阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测NodeManager各个节点的可用磁盘空间,并把磁盘可用率和阈值相比较。“NodeManager磁盘可用率”指标默认提供一个阈值范围。当检测到实际“NodeManager磁盘可用率”的值低于阈值范围时产生该告警。
Storm服务可用Supervisor数量小于阈值(2.x及以前版本) 告警解释 系统每60秒周期性检测Supervisor数量,并把实际Supervisor数量和阈值相比较。当检测到Supervisor数量低于阈值时产生该告警。 用户可通过“系统设置 > 阈值配置”修改阈值。 当
ALM-43007 JobHistory进程非堆内存使用超出阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测JobHistory进程非堆内存使用状态,当检测到JobHistory进程非堆内存使用率超出阈值(最大内存的90%)时产生该告警。 告警属性 告警ID 告警级别 可自动清除
ALM-14022 NameNode RPC队列平均时间超过阈值 告警解释 系统每30秒周期性检测NameNode的RPC队列平均时间,并把实际的NameNode的RPC队列平均时间和阈值(默认为200ms)相比较。当检测到NameNode的RPC队列平均时间连续多次(默认为10次)超出阈值范围时,产生该告警。
ALM-19021 RegionSever handler 使用率超过阈值 告警解释 系统每30秒周期性检测每个HBase服务实例RegionServer的handler使用率。当检测到某个RegionServer上的handler使用率超出阈值(默认连续5次超过默认阈值90%)时产
ALM-38001 Kafka磁盘容量不足 告警解释 系统按60秒周期检测Kafka磁盘空间使用率,并把实际磁盘使用率和阈值相比较。磁盘使用率默认提供一个阈值范围。当检测到磁盘使用率高于阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置”,在服务列表下面,选择“Kafka
ALM-38002 Kafka堆内存使用率超过阈值 告警解释 系统每60秒周期性检测Kafka服务堆内存使用状态,当连续10次检测到Kafka实例堆内存使用率超出阈值(最大内存的95%)时产生该告警。 平滑次数为1,堆内存使用率小于或等于阈值时,告警恢复;平滑次数大于1,堆内存使
ALM-43007 JobHistory2x进程非堆内存使用超出阈值 告警解释 系统每30秒周期性检测JobHistory2x进程非堆内存使用状态,当检测到JobHistory2x进程非堆内存使用率超出阈值(最大内存的95%)时产生该告警。 MRS 3.3.0-LTS及之后的版本
ALM-45180 OBS read接口调用失败数高于阈值 告警解释 系统每30秒周期性检测OBS read接口调用失败数是否高于阈值,当检测到大于所设置阈值时就会产生该告警 。 当OBS read接口调用失败数小于阈值时,该告警会自动清除。 告警属性 告警ID 告警级别 是否自动清除
ALM-45277 RangerAdmin堆内存使用率超过阈值 告警解释 系统每60秒周期性检测RangerAdmin服务堆内存使用状态,当连续10次检测到RangerAdmin实例堆内存使用率超出阈值(最大内存的95%)时产生该告警,堆内存使用率小于阈值时,告警恢复。 告警属性
ALM-45286 TagSync直接内存使用率超过阈值 告警解释 系统每60秒周期性检测TagSync服务直接内存使用状态,当连续5次检测到TagSync实例直接内存使用率超出阈值(最大内存的80%)时,产生该告警。当TagSync直接内存使用率小于或等于阈值时,告警恢复。 告警属性
ALM-45288 TagSync垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测TagSync进程的垃圾回收(GC)占用时间,当连续5次检测到TagSync进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。垃圾回收(GC)时间小于阈值时,告警恢复。 告警属性
ALM-45432 ClickHouse用户同步进程故障 告警解释 系统每5分钟周期性检测用户角色同步进程的状态,当检测到ClickHouse服务用户角色同步进程故障或者用户角色同步失败,产生该告警。 当用户角色同步进程正常并且用户角色同步功能正常后,告警自动清除。 告警属性 告警ID