检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本章节仅适用于MRS 3.1.5及之后版本。 告警解释 系统每60秒周期性检测TokenServer服务非堆内存使用状态,当连续5次检测到TokenServer实例非堆内存使用率超出阈值(最大内存的80%)时产生该告警。 当系统检测到非堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别
Worker进程垃圾收集时间超出阈值(2.x及以前版本) 告警解释 系统每30s周期性采集Presto Worker进程的垃圾收集(GC)时间,当检测到GC时间超出阈值(连续3次检测超过5s)时产生该告警。用户可在MRS Manager中通过“系统设置 > 阈值配置 > 服务 > Presto > Worker
ALM-25500 KrbServer服务不可用(2.x及以前版本) 告警解释 系统按30秒周期性检测组件KrbServer的服务状态。当检测到组件KrbServer服务异常时产生该告警。 当检测到组件KrbServer服务恢复时告警恢复。 告警属性 告警ID 告警级别 可自动清除 25500
ALM-43022 IndexServer2x进程GC时间超出阈值 告警解释 系统每60秒周期性检测IndexServer2x进程的GC时间,当检测到IndexServer2x进程的GC时间超出阈值(连续3次检测超过12秒)时产生该告警。用户可通过“运维 >告警 > 阈值设置 > Spark2x
ALM-12203 进程Full GC时间超过阈值 告警解释 系统每30秒周期性检测OMS主要进程的GC时间,当检测到OMS进程的GC时间超出阈值(默认连续3次检测超过12秒,可通过“运维 > 告警 > 阈值设置 > OMS > OMS服务”修改阈值)时产生该告警。 当OMS进程的GC时间小于或等于阈值时,告警恢复。
ALM-16007 Hive GC 时间超出阈值 告警解释 系统每60秒周期性检测Hive服务的GC时间,当检测到Hive服务的GC时间超出阈值(连续3次检测超过12秒)时产生该告警。用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Hive”修改阈值。当Hive
ALM-12015 设备分区文件系统只读 告警解释 系统按60秒周期进行扫描,如果检测到挂载服务目录的设备分区变为只读模式(如设备有坏扇区、文件系统存在故障等原因),则触发此告警。 系统如果检测到挂载服务目录的设备分区的只读模式消失(比如文件系统修复为读写模式、设备拔出、设备被重新格式化等原因),则告警恢复。
告警解释 系统每120秒周期性检测每个HBase服务在HDFS上的“hdfs://hacluster/hbase/autocorrupt”和“hdfs://hacluster/hbase/MasterData/autocorrupt”目录,当检测到目录下存在文件时产生该告警。
产生该告警。 当重新导入一个正常证书,并且状态不为失效状态,在下一个整点触发告警检测机制后,该告警恢复。 MRS 3.2.0及之后版本告警检测周期为:每小时整点。 MRS 3.2.0之前版本告警检测周期为:每天二十三点。 告警属性 告警ID 告警级别 是否自动清除 12054 重要(MRS
产生该告警。 当重新导入一个正常证书,并且状态不为即将过期,在下一个整点触发告警检测机制后,该告警恢复。 MRS 3.2.0及之后版本告警检测周期为:每小时整点。 MRS 3.2.0之前版本告警检测周期为:每天二十三点。 告警属性 告警ID 告警级别 是否自动清除 12055 次要(MRS
ALM-29006 Impalad ODBC连接数超过阈值 告警解释 以30s为周期检测连接到该Impalad节点的客户端连接数,当检测到的连接数超过自定义阈值(默认60)时,系统产生此告警。 当系统检测到客户端连接数减少到阈值以下时,告警将自动解除。 告警属性 告警ID 告警级别 是否自动清除
ALM-25000 LdapServer服务不可用 告警解释 系统按30秒周期性检测LdapServer的服务状态,当检测到两个LdapServer服务均异常时产生该告警。 当检测到一个或两个LdapServer服务恢复时告警恢复。 告警属性 告警ID 告警级别 是否自动清除 25000
JDBCServer2x进程Full GC次数超出阈值 告警解释 系统每60秒周期性检测JDBCServer2x进程的Full GC次数,当检测到JDBCServer2x进程的Full GC次数超出阈值(连续3次检测超过12次)时产生该告警。用户可通过“运维 > 告警 > 阈值设置 > Spark2x
ALM-25500 KrbServer服务不可用 告警解释 系统按30秒周期性检测组件KrbServer的服务状态。当检测到组件KrbServer服务异常时产生该告警。 当检测到组件KrbServer服务恢复时告警恢复。 告警属性 告警ID 告警级别 是否自动清除 25500 紧急
ALM-19017 在ZooKeeper上的容量配额使用率超过阈值 告警解释 系统每120秒周期性检测HBase服务的znode使用情况,当检测到HBase服务的znode容量使用率超出告警的阈值(默认75%)时产生该告警。 当znode的容量使用率小于告警的阈值时,告警恢复。 告警属性
ALM-45000 HetuEngine服务不可用 告警解释 系统每300秒周期性检测HetuEngine服务状态,当检测到HetuEngine服务不可用时产生该告警。 HetuEngine服务恢复时,告警清除。 告警属性 告警ID 告警级别 是否自动清除 45000 紧急 是 告警参数
a消息积压告警规则(默认不存在Kafka消息积压告警规则),则系统将按照如下规则进行上报: 系统每60秒周期性检测所有用户配置的消费者组订阅的Topic,当连续5次检测到消费者在消费Topic时,其消费进度(offset)与该分区(partition)最新生产的消息的log end
Worker进程垃圾收集时间超出阈值 告警解释 系统每30s周期性采集Presto Worker进程的垃圾收集(GC)时间,当检测到GC时间超出阈值(连续3次检测超过5s)时产生该告警。用户可在FusionInsight Manager中通过“运维 > 阈值配置 > 服务 > Presto
ALM-45434 ClickHouse组件数据表中存在单副本 告警解释 ClickHouse组件开启自定义逻辑集群后,当检测到某个自定义逻辑集群存在单副本时,系统产生此告警。 当检测到自定义逻辑集群使用多副本时,告警自动清除。 告警属性 告警ID 告警级别 是否自动清除 45434 重要 是
ALM-12043 DNS解析时长超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测DNS解析时长,并把DNS解析时长和阈值(系统默认阈值20000ms)进行比较,当检测到DNS解析时长连续多次(默认值为2)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 >