检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ClickHouse表数据倾斜 告警解释 ClickHouse各节点之间,分布式表对应的本地表中,若存在数据倾斜,系统产生此告警。当检测到数据均衡时,告警自动清除。 数据倾斜检测方法: 当参数“min_table_check_data_bytes”值为“0”时,不启用数据倾斜检查。 当参数“mi
ALM-19012 HBase系统表目录或文件丢失 告警解释 系统按120秒周期性检测HBase在HDFS上的如下目录和文件是否存在,当检测到文件或者目录不存在时,上报该告警。当文件或目录都恢复后,告警恢复。 检查内容: 命名空间hbase在HDFS上的目录。 hbase.version文件。
ALM-12201 进程CPU使用率超过阈值 告警解释 系统每30秒周期性检测CPU使用率,并把实际CPU使用率和阈值相比较。当检测到CPU使用率连续多次(默认值为10)超出阈值范围时产生该告警。 平滑次数为1,CPU使用率小于或等于阈值时,告警恢复;平滑次数大于1,CPU使用率小于或等于阈值的90%时,告警恢复。
ALM-45283 UserSync非堆内存使用率超过阈值 告警解释 系统每60秒周期性检测UserSync服务非堆内存使用状态,当连续5次检测到UserSync实例非堆内存使用率超出阈值(最大内存的80%)时产生该告警,非堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别
ALM-24008 Flume Server非堆内存使用率超过阈值 告警解释 系统每60秒周期性检测Flume服务非堆内存使用状态,当连续5次检测到Flume实例非堆内存使用率超出阈值(最大内存的80%)时产生该告警,非堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别
ALM-12191 磁盘IO利用率超过阈值 告警解释 系统每30秒周期性检测磁盘IO利用率,并把实际磁盘IO利用率和阈值相比较。当检测到磁盘IO利用率连续多次(默认值为10)超出阈值范围时产生该告警。 平滑次数为1,磁盘IO利用率小于或等于阈值时,告警恢复;平滑次数大于1,磁盘I
ALM-38001 Kafka磁盘容量不足 告警解释 系统按60秒周期检测Kafka磁盘空间使用率,并把实际磁盘使用率和阈值相比较。磁盘使用率默认提供一个阈值范围。当检测到磁盘使用率高于阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置”,在服务列表下面,选择“Kafka
Oozie连接ZooKeeper状态异常 告警解释 在HA模式下,Oozie会依赖ZooKeeper,当检测到与ZooKeeper的连接状态连续3次异常时,产生该告警。 当检测到Oozie连接ZooKeeper状态正常时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 17008
ALM-13000 ZooKeeper服务不可用(2.x及以前版本) 告警解释 系统每30秒周期性检测ZooKeeper服务状态,当检测到ZooKeeper服务不可用时产生该告警。 ZooKeeper服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除 13000 致命
ALM-14000 HDFS服务不可用(2.x及以前版本) 告警解释 系统每30秒周期性检测NameService的服务状态,当检测到所有的NameService服务都异常时,就会认为HDFS服务不可用,此时产生该告警。 至少一个NameService服务正常后,系统认为HDFS服务恢复,告警清除。
ALM-28001 Spark服务不可用(2.x及以前版本) 告警解释 系统每30秒周期性检测Spark服务状态,当检测到Spark服务不可用时产生该告警。 Spark服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除 28001 致命 是 告警参数 参数名称 参数含义
ALM-43001 Spark服务不可用(2.x及以前版本) 告警解释 系统每60秒周期性检测Spark服务状态,当检测到Spark服务不可用时产生该告警。 Spark服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除 43001 致命 是 告警参数 参数名称 参数含义
ALM-38011 Broker上用户连接数使用率超过设定阈值 告警解释 系统每30秒周期性检测Broker上每个用户的连接数情况,当连续5次检测到Broker上某个用户的连接数使用占比超过阈值(默认80%)时产生该告警。 平滑次数为5,当Broker上某个用户的连接数使用占比低于阈值时,告警恢复。
Broker磁盘IO繁忙”,请参考ALM-38009 Broker磁盘IO繁忙(适用于MRS 3.1.0之后版本)进行处理。 告警解释 系统每60秒周期性检测Kafka各个Topic的过载情况,当检测到某个Topic在过载磁盘上的Partition数占比超出阈值(默认40%)时,产生该告警。 平滑次数为1,当某个To
ZooKeeper Znode容量使用率超出阈值 告警解释 系统每小时(MRS 3.5.0及之后版本为“每10分钟”)周期性检测ZooKeeper服务数据目录下二级znode状态,当检测到二级znode的总容量超过阈值时产生该告警。 告警属性 告警ID 告警级别 是否自动清除 13009 重要 是
ALM-13010 配置quota的目录Znode使用率超出阈值 告警解释 系统每小时周期性检测配置quota的所有服务目录的znode数量,当检测到某个二级znode的数量使用率超过阈值时产生该告警。 告警属性 告警ID 告警级别 是否自动清除 13010 重要 是 告警参数 参数名称
ALM-45652 Flink服务不可用 本章节适用于MRS 3.3.0及以后版本。 告警解释 告警模块按60秒周期检测Flink服务状态。当检测到Flink服务不可用时产生该告警。Flink服务恢复时,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 45652 紧急 是
ZooKeeper Znode数量使用率超出阈值 告警解释 系统每小时(MRS 3.5.0及之后版本为“每10分钟”)周期性检测ZooKeeper服务数据目录下二级znode状态,当检测到二级znode的总数量超过阈值时产生该告警。 告警属性 告警ID 告警级别 是否自动清除 13008 重要 是
ALM-14000 HDFS服务不可用 告警解释 系统每60秒周期性检测NameService的服务状态,当检测到所有的NameService服务都异常时,就会认为HDFS服务不可用,此时产生该告警。 至少一个NameService服务正常后,系统认为HDFS服务恢复,告警清除。
ALM-18000 Yarn服务不可用 告警解释 告警模块按60秒周期检测Yarn服务状态。当检测到Yarn服务不可用时产生该告警。 Yarn服务恢复时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 18000 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。