检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-18011 NodeManager进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测NodeManager进程的垃圾回收(GC)占用时间,当检测到NodeManager进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复。
RegionServer的Region数量超出阈值 告警解释 系统每30秒周期性检测每个HBase服务实例中每个RegionServer的Region数。该指标可以在HBase服务监控界面和RegionServer角色监控界面查看,当检测到某个RegionServer上的Region数超出阈值(默认
ALM-47002 MemArtsCC磁盘故障 本章节仅适用于MRS 3.3.1及之后版本。 告警解释 告警模块按60秒周期检测MemArtsCC使用的本地盘状态,当检测到磁盘状态异常会触发告警。当磁盘恢复正常后,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 47002 重要
ALM-18000 Yarn服务不可用(2.x及以前版本) 告警解释 告警模块按30秒周期检测Yarn服务状态。当检测到Yarn服务不可用时产生该告警。 Yarn服务恢复时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 18000 致命 是 告警参数 参数名称 参数含义 ServiceName
HetuEngine计算实例Worker个数小于阈值 本章节适用于MRS 3.3.1及以后版本。 告警解释 系统每60秒周期性检测HetuEngine计算实例的Worker个数,当检测到HetuEngine计算实例的Worker个数小于初始设置值的80%时产生该告警。 HetuEngine计算实
执行命令smartctl -a /dev/sd故障磁盘,进行磁盘检测,其中“故障磁盘”为3查询到的磁盘。 若检测结果如下图所示,其中“SMART Health Status: OK”,表示当前磁盘是健康的,执行6。 若检测结果如下图所示,其中“Elements in grown defect
ALM-19035 RegionServer Call队列大小超过阈值 告警解释 系统每30秒周期性检测每个HBase服务的RegionServer实例的Call队列大小,当检测到某个RegionServer上的Call队列大小连续10次超出阈值时产生该告警。 当RegionSe
ALM-29106 Tserver进程CPU占用率过高 告警解释 系统每60秒周期性检测Kudu的服务状态,当检测到Kudu Tserver进程CPU占用率过高时,此时产生该告警。 Tserver进程CPU占用率正常时,系统认为Kudu实例服务恢复,告警清除。 告警属性 告警ID
ALM-38005 Broker进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测Broker进程的垃圾回收(GC)占用时间,当连续3次检测到Broker进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 平滑次数为1,垃圾回收(GC)时间小于或等于
ALM-45278 RangerAdmin直接内存使用率超过阈值 告警解释 系统每60秒周期性检测RangerAdmin服务直接内存使用状态,当连续5次检测到RangerAdmin实例直接内存使用率超出阈值(最大内存的80%)时,产生该告警。当RangerAdmin直接内存使用率小于或等于阈值时,告警恢复。
ALM-43008 JobHistory2x进程直接内存使用超出阈值 告警解释 系统每30秒周期性检测JobHistory2x进程直接内存使用状态,当检测到JobHistory2x进程直接内存使用率超出阈值(最大内存的95%)时产生该告警。 MRS 3.3.0-LTS及之后的版本
HetuEngine计算实例任务失败率超过阈值 本章节适用于MRS 3.5.0及以后版本。 告警解释 系统每30秒周期性检测HetuEngine计算实例的任务失败率,当检测到HetuEngine计算实例的任务失败率大于等于50%时产生该告警。 HetuEngine计算实例运行的任务失败率小于50%时,告警清除。
ALM-13001 ZooKeeper可用连接数不足 告警解释 系统每60秒周期性检测ZooKeeper服务连接数状态,当检测到ZooKeeper实例连接数超出阈值(最大连接数的80%)时产生该告警。 平滑次数为1,ZooKeeper可用连接数小于或等于阈值时,告警恢复;平滑次数
ALM-13002 ZooKeeper直接内存使用率超过阈值 告警解释 系统每30秒周期性检测ZooKeeper服务直接内存使用状态,当检测到ZooKeeper实例直接内存使用率超出阈值(最大内存的80%)时产生该告警。 平滑次数为1,ZooKeeper直接内存使用率小于阈值时,
ALM-18002 NodeManager心跳丢失 告警解释 系统每30秒周期性检测丢失的NodeManager节点,并把丢失的节点数和阈值相比较。“丢失的节点数”指标默认提供一个阈值。当检测到“丢失的节点数”的值超出阈值时产生该告警。 用户可通过选择“集群 > 待操作集群的名称
ALM-18015 JobHistoryServer直接内存使用率超过阈值 告警解释 系统每30秒周期性检测MapReduce服务直接内存使用状态,当检测到JobHistoryServer实例直接内存使用率超出阈值(最大内存的90%,默认阈值)时,产生该告警。 直接内存使用率小于阈值时,告警恢复。
告警解释 HBase服务安装MetricController实例时,热点自愈功能自动开启,告警模块按120秒周期检测HBase是否存在因为热点问题被限制请求流量的Region。当检测到HBase存在热点限流Region时,上报该告警。 当热点Region请求不再过热,将解除限流,告警清除。
ALM-23007 Loader进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测Loader进程的垃圾回收(GC)占用时间,当连续5次检测到Loader进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。垃圾回收(GC)时间小于阈值时,告警恢复。 告警属性
ALM-38007 Kafka默认用户状态异常 告警解释 系统每60秒周期性检测Kafka服务默认用户,当检测到该用户异常时发送此告警。 平滑次数为1,当用户状态恢复后,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 38007 紧急 是 告警参数 参数名称 参数含义 来源
HetuEngine计算实例内存负载使用率超过阈值 本章节适用于MRS 3.3.1及以后版本。 告警解释 系统每30秒周期性检测HetuEngine计算实例的内存负载使用率,当检测到HetuEngine计算实例的内存负载使用率大于80%时产生该告警。 HetuEngine计算实例运行的内存负载使用率小于等于80%时,告警清除。