检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本章节仅适用于MRS 3.1.5及之后版本。 告警解释 系统每60秒周期性检测TokenServer进程的垃圾回收(GC)占用时间,当连续5次检测到TokenServer进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 当系统检测到垃圾回收(GC)时间小于阈值时,告警恢复。 告警属性
ALM-50402 JobGateway服务不可用 告警解释 系统按60秒周期性检测组件JobGateway的服务状态。当检测到组件JobGateway服务异常时产生该告警。 当检测到组件JobGateway服务恢复时告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 50402
JDBCServer GC 时间超出阈值(2.x及以前版本) 告警解释 系统每60秒周期性检测JDBCServer进程的GC时间,当检测到JDBCServer进程的GC时间超出阈值(连续3次检测超过12秒)时产生该告警。 用户可通过“系统设置 > 阈值配置 > 服务 > Spark
ALM-17010 Oozie连接HDFS状态异常 告警解释 Oozie会依赖HDFS,提交任务后系统会检测HDFS连接状态,当检测到与HDFS的连接状态连续3次异常时,产生该告警。 当检测到Oozie连接HDFS状态正常时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 17010
本章节仅适用于MRS 3.1.5及之后版本。 告警解释 系统每60秒周期性检测TokenServer服务直接内存使用状态,当连续5次检测到TokenServer实例直接内存使用率超出阈值(最大内存的80%)时,产生该告警。 当系统检测到TokenServer直接内存使用率小于或等于阈值时,告警恢复。
ALM-16007 Hive GC 时间超出阈值 告警解释 系统每60秒周期性检测Hive服务的GC时间,当检测到Hive服务的GC时间超出阈值(连续3次检测超过12秒)时产生该告警。用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Hive”修改阈值。当Hive
ALM-43009 JobHistory2x进程GC时间超出阈值 告警解释 系统每60秒周期性检测JobHistory2x进程的GC时间,当检测到JobHistory2x进程的GC时间超出阈值(连续3次检测超过12秒)时产生该告警。用户可通过“运维 >告警 > 阈值设置 > Spark2x
ClickHouse服务在ZooKeeper的容量配额使用率超过阈值 告警解释 告警模块按60秒周期检测ClickHouse服务在ZooKeeper的容量配额使用百分比,当检测到使用百分比超过阈值(90%),系统产生此告警。 当系统检测到使用百分比低于阈值,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别
ClickHouse磁盘使用率超过80% 告警解释 系统每隔1分钟检测ClickHouseServer节点磁盘容量,当检测到ClickHouse数据目录或元数据目录所在磁盘的使用率超过80%时,系统产生此告警。 当检测到ClickHouse数据目录或元数据目录所在磁盘的使用率低于80%时,告警自动清除。
ClickHouse节点进入只读模式 告警解释 系统每隔1分钟检测ClickHouseServer节点磁盘容量,当检测到磁盘容量超过90%,ClickHouseServer节点进入只读模式时,系统产生此告警。 当检测到磁盘容量低于90%,ClickHouseServer节点退出只读模式时,告警自动清除。
ALM-12002 HA资源异常(2.x及以前版本) 告警解释 HA软件周期性检测Manager的WebService浮动IP地址和Manager的数据库。当HA软件检测到浮动IP地址或数据库异常时,产生该告警。 当HA检测到浮动IP地址或数据库正常后,告警恢复。 告警属性 告警ID 告警级别
ALM-25500 KrbServer服务不可用(2.x及以前版本) 告警解释 系统按30秒周期性检测组件KrbServer的服务状态。当检测到组件KrbServer服务异常时产生该告警。 当检测到组件KrbServer服务恢复时告警恢复。 告警属性 告警ID 告警级别 可自动清除 25500
ALM-29004 Impalad进程内存占用率超过阈值 告警解释 以30s为周期检测Impalad进程系统内存占用率,当检测到的超过默认阈值(80%)时,系统产生此告警。 当系统检测到进程内存占用率下降到阈值以下时,告警将自动解除。 告警属性 告警ID 告警级别 是否可自动清除
ALM-29010 Impalad 正在提交的查询总数超过阈值 告警解释 以60s为周期检测该Impalad节点正在提交的查询总数,当检测到的数量超过自定义阈值(默认150)时,系统产生此告警。 当系统检测到的数量减少到阈值以下时,告警将自动解除。 告警属性 告警ID 告警级别 是否自动清除
本章节仅适用于MRS 3.1.5及之后版本。 告警解释 系统每60秒周期性检测TokenServer服务非堆内存使用状态,当连续5次检测到TokenServer实例非堆内存使用率超出阈值(最大内存的80%)时产生该告警。 当系统检测到非堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别
ALM-24000 Flume服务不可用(2.x及以前版本) 告警解释 告警模块按180秒周期检测Flume服务状态,当检测到Flume服务异常时,系统产生此告警。 当系统检测到Flume服务恢复正常,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 24000
ALM-12067 tomcat资源异常 告警解释 HA每85秒周期性检测Manager的Tomcat资源。当HA连续2次都检测到Tomcat资源异常时,产生该告警。 当HA检测到Tomcat资源正常后,告警恢复。 Tomcat资源为单主资源,一般资源异常会导致主备倒换,看到告警
ALM-12068 acs资源异常 告警解释 HA每80秒周期性检测Manager的ACS资源。当HA连续2次都检测到ACS资源异常时,产生该告警。 当HA检测到ACS资源正常后,告警恢复。 ACS资源为单主资源,一般资源异常会导致主备倒换,看到告警时,基本已经主备倒换,并在新主
ALM-12071 httpd资源异常 告警解释 HA每120秒周期性检测Manager的httpd资源。当HA连续10次检测到httpd资源异常时,产生该告警。 当HA检测到httpd资源正常后,告警恢复。 httpd资源为单主资源,一般资源异常会导致主备倒换,看到告警时,基本
ALM-12072 floatip资源异常 告警解释 HA每9秒周期性检测Manager的floatip资源。当HA连续3次检测到floatip资源异常时,产生该告警。 当HA检测到floatip资源正常后,告警恢复。 floatip资源为单主资源,一般资源异常会导致主备倒换,看