检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-19007 HBase合并队列超出阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测HBase服务的compaction队列长度,默认当连续3次检测到HBase服务的compaction队列长度超过告警的阈值(默认100)时产生该告警。
ALM-13006 Znode数量或容量超过阈值 告警解释 系统每4小时周期性检测ZooKeeper服务数据目录下二级znode状态,当检测到二级Znode数量或者容量超过阈值时产生该告警。
当检测到NameNode的RPC处理平均时间连续多次(默认为10次)超出阈值范围时,产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > HDFS”修改阈值。
ALM-18021 Mapreduce服务不可用 告警解释 告警模块按60秒周期检测Mapreduce服务状态。当检测到Mapreduce服务不可用时产生该告警。 Mapreduce服务恢复时,告警恢复。
ALM-19019 HBase容灾等待同步的HFile文件数量超过阈值 告警解释 系统每30秒周期性检测每个HBase服务实例RegionServer等待同步的HFile文件数量。
ALM-18002 NodeManager心跳丢失 告警解释 系统每30秒周期性检测丢失的NodeManager节点,并把丢失的节点数和阈值相比较。“丢失的节点数”指标默认提供一个阈值。当检测到“丢失的节点数”的值超出阈值时产生该告警。
ALM-18020 Yarn任务执行超时 告警解释 系统每15分钟周期性检测提交到Yarn上的Mapreduce和Spark应用任务(JDBC常驻任务除外),当检测到任务执行时间超过用户指定的超时时间时,产生该告警,但任务仍继续正常执行。
ALM-19035 RegionServer Call队列大小超过阈值 告警解释 系统每30秒周期性检测每个HBase服务的RegionServer实例的Call队列大小,当检测到某个RegionServer上的Call队列大小连续10次超出阈值时产生该告警。
ALM-13008 ZooKeeper Znode数量使用率超出阈值 告警解释 系统每小时(MRS 3.5.0及之后版本为“每10分钟”)周期性检测ZooKeeper服务数据目录下二级znode状态,当检测到二级znode的总数量超过阈值时产生该告警。
ALM-14000 HDFS服务不可用 告警解释 系统每60秒周期性检测NameService的服务状态,当检测到所有的NameService服务都异常时,就会认为HDFS服务不可用,此时产生该告警。
ALM-18000 Yarn服务不可用 告警解释 告警模块按60秒周期检测Yarn服务状态。当检测到Yarn服务不可用时产生该告警。 Yarn服务恢复时,告警恢复。
ALM-18011 NodeManager进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测NodeManager进程的垃圾回收(GC)占用时间,当检测到NodeManager进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。
ALM-19011 RegionServer的Region数量超出阈值 告警解释 系统每30秒周期性检测每个HBase服务实例中每个RegionServer的Region数。
ALM-44006 Presto Worker进程垃圾收集时间超出阈值(2.x及以前版本) 告警解释 系统每30s周期性采集Presto Worker进程的垃圾收集(GC)时间,当检测到GC时间超出阈值(连续3次检测超过5s)时产生该告警。
执行命令smartctl -a /dev/sd故障磁盘,进行磁盘检测,其中“故障磁盘”为3查询到的磁盘。 若检测结果如下图所示,其中“SMART Health Status: OK”,表示当前磁盘是健康的,执行6。
告警解释 系统每60秒周期性检测HetuEngine计算实例状态,当检测到HetuEngine服务存在故障计算实例时产生该告警。 HetuEngine故障计算实例全部恢复时,告警清除。
告警解释 系统每60秒周期性检测HetuEngine计算实例的Worker个数,当检测到HetuEngine计算实例的Worker个数小于初始设置值的80%时产生该告警。 HetuEngine计算实例运行的Worker个数大于等于初始设置值的80%时,告警清除。
告警解释 告警模块按60秒周期检测Flink服务状态。当检测到Flink服务不可用时产生该告警。Flink服务恢复时,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 45652 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
ALM-19034 RegionServer WAL写入超时个数超过阈值 告警解释 系统每30秒周期性检测每个HBase服务的RegionServer实例的WAL写入超时个数,当检测到某个RegionServer上的WAL写入超时个数连续10次超出阈值时产生该告警。
ALM-23007 Loader进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测Loader进程的垃圾回收(GC)占用时间,当连续5次检测到Loader进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。垃圾回收(GC)时间小于阈值时,告警恢复。