检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Guardian服务不可用 本章节仅适用于MRS 3.1.5及之后版本。 告警解释 告警模块按60秒周期检测Guardian服务状态,当检测到Guardian服务异常时,系统产生此告警。 当系统检测到Guardian服务恢复正常,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除
IndexServer2x进程Full GC次数超出阈值 告警解释 系统每60秒周期性检测IndexServer2x进程的Full GC次数,当检测到IndexServer2x进程的Full GC次数超出阈值(连续3次检测超过12次)时产生该告警。用户可通过“运维 > 告警 > 阈值设置 > Spark2x
ALM-19007 HBase GC时间超出阈值 告警解释 系统每60秒周期性检测HBase服务的老年代GC时间,当检测到HBase服务的老年代GC时间超出阈值(默认连续3次检测超过5秒)时产生该告警。 在FusionInsight Manager首页,用户可通过选择“运维 > 告警
JobHistory2x进程Full GC次数超出阈值 告警解释 系统每60秒周期性检测JobHistory2x进程的Full GC次数,当检测到JobHistory2x进程的Full GC次数超出阈值(连续3次检测超过12次)时产生该告警。用户可通过“运维 > 阈值设置 > Spark2x
ALM-45276 RangerAdmin状态异常 告警解释 告警模块按60秒周期检测RangerAdmin状态,当检测到RangerAdmin状态异常时,系统产生此告警。 当系统检测到RangerAdmin状态恢复正常,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别
ALM-43009 JobHistory2x进程GC时间超出阈值 告警解释 系统每60秒周期性检测JobHistory2x进程的GC时间,当检测到JobHistory2x进程的GC时间超出阈值(连续3次检测超过12秒)时产生该告警。用户可通过“运维 >告警 > 阈值设置 > Spark2x
ClickHouse服务在ZooKeeper的容量配额使用率超过阈值 告警解释 告警模块按60秒周期检测ClickHouse服务在ZooKeeper的容量配额使用百分比,当检测到使用百分比超过阈值(90%),系统产生此告警。 当系统检测到使用百分比低于阈值,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别
ClickHouse磁盘使用率超过80% 告警解释 系统每隔1分钟检测ClickHouseServer节点磁盘容量,当检测到ClickHouse数据目录或元数据目录所在磁盘的使用率超过80%时,系统产生此告警。 当检测到ClickHouse数据目录或元数据目录所在磁盘的使用率低于80%时,告警自动清除。
ClickHouse节点进入只读模式 告警解释 系统每隔1分钟检测ClickHouseServer节点磁盘容量,当检测到磁盘容量超过90%,ClickHouseServer节点进入只读模式时,系统产生此告警。 当检测到磁盘容量低于90%,ClickHouseServer节点退出只读模式时,告警自动清除。
TokenServer RPC处理平均时间超过阈值 告警解释 系统每30秒周期性检测TokenServer服务RPC处理平均时间,当连续5次检测到TokenServer实例RPC处理平均时间超出阈值时产生该告警。 当系统检测到TokenServer实例RPC处理平均时间小于阈值时,告警恢复。
ALM-19013 region处在RIT状态的时长超过阈值 告警解释 系统按300秒周期性检测HBase上的region处在RIT状态的数量。当检测到处在RIT状态的region时长超过阈值时长(连续两次超过阈值),上报该告警。当处在超时状态的region都恢复后,告警恢复。 告警属性
ALM-45275 Ranger服务不可用 告警解释 告警模块按180秒周期检测Ranger服务状态,当检测到Ranger服务异常时,系统产生此告警。 当系统检测到Ranger服务恢复正常,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45275 紧急
本章节仅适用于MRS 3.3.1及之后版本。 告警解释 系统每隔5分钟检测一次mutation任务,当检测到有正在执行的mutation任务且运行时间大于等于阈值slow_mutation_cost_time时,系统产生告警;当没有检测到正在运行的mutation任务或mutation任务运行
HBase关键目录数据存在坏块 告警解释 系统每5分钟周期性检测HBase服务的关键目录是否存在坏块,当检测到存在坏块时产生该告警。检查内容包括“hbase.version”文件、hbase:meta和master:store表目录。 当系统检测到HBase服务的关键目录都不存在坏块时,告警清除。
ClickHouse服务在ZooKeeper的数量配额使用率超过阈值 告警解释 告警模块按60秒周期检测ClickHouse服务在ZooKeeper的数量配额使用百分比,当检测到使用百分比超过阈值(90%),系统产生此告警。 当系统检测到使用百分比低于阈值,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别
本章节仅适用于MRS 3.1.5及之后版本。 告警解释 系统每60秒周期性检测TokenServer进程的垃圾回收(GC)占用时间,当连续5次检测到TokenServer进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 当系统检测到垃圾回收(GC)时间小于阈值时,告警恢复。 告警属性
ALM-50402 JobGateway服务不可用 告警解释 系统按60秒周期性检测组件JobGateway的服务状态。当检测到组件JobGateway服务异常时产生该告警。 当检测到组件JobGateway服务恢复时告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 50402
JDBCServer GC 时间超出阈值(2.x及以前版本) 告警解释 系统每60秒周期性检测JDBCServer进程的GC时间,当检测到JDBCServer进程的GC时间超出阈值(连续3次检测超过12秒)时产生该告警。 用户可通过“系统设置 > 阈值配置 > 服务 > Spark
ALM-43022 IndexServer2x进程GC时间超出阈值 告警解释 系统每60秒周期性检测IndexServer2x进程的GC时间,当检测到IndexServer2x进程的GC时间超出阈值(连续3次检测超过12秒)时产生该告警。用户可通过“运维 >告警 > 阈值设置 > Spark2x
ALM-12070 controller资源异常 告警解释 HA每80秒周期性检测Manager的controller资源。当HA连续2次检测到controller资源异常时,产生该告警。 当HA检测到controller资源正常后,告警恢复。 controller资源为单主资源