检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-12014 设备分区丢失 告警解释 系统按60秒周期进行扫描,如果检测到挂载服务目录的设备分区丢失(如由于设备拔出、设备离线、删除分区等原因)时,产生此告警。 告警属性 告警ID 告警级别 是否自动清除 12014 重要 是:MRS 3.3.0及之后版本、MRS 3.1.0
ALM-12079 omm用户即将过期 告警解释 系统每天零点开始,每8小时检测当前系统中omm用户是否即将过期,如果当前时间与用户过期时间剩余不足15天,则发送告警。 当系统中omm用户过期的期限重置,当前状态为正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12079
ALM-12101 AZ不健康 告警解释 AZ容灾开启后,系统每隔5分钟检查一次当前系统上AZ的健康状态,当检测到AZ健康状态为亚健康或者不健康时产生告警。AZ健康状态恢复健康时,告警清除。 告警属性 告警ID 告警级别 是否自动清除 12101 紧急 是 告警参数 告警参数 参数含义
ALM-14001 HDFS磁盘空间使用率超过阈值 告警解释 系统每30秒周期性检测HDFS磁盘空间使用率,并把实际的HDFS磁盘空间使用率和阈值相比较。HDFS磁盘使用率指标默认提供一个阈值范围。当HDFS磁盘空间使用率超出阈值范围时,产生该告警。 用户可通过“运维 > 告警 >
ALM-18026 Yarn上运行失败的任务数超过阈值 告警解释 告警模块按60秒周期检测Yarn root队列上失败的应用的数量,当root队列上该监控周期内新增的运行失败的应用的数量超过50时,且连续发生3次以上,触发该告警。 告警属性 告警ID 告警级别 是否自动清除 18026
ALM-25005 Nscd服务异常 告警解释 系统每60秒周期性检测nscd服务的状态,如果连续4次(3分钟)查询不到nscd进程或者无法获取LdapServer中的用户时,产生该告警。 当进程恢复且可以获取LdapServer中的用户时,告警恢复。 告警属性 告警ID 告警级别
ALM-25006 Sssd服务异常 告警解释 系统每60秒周期性检测sssd服务的状态,如果连续4次(3分钟)查询不到sssd进程或者无法获取LdapServer中的用户时,产生该告警。 当进程恢复且可以获取LdapServer中的用户时,告警恢复。 告警属性 告警ID 告警级别
SlapdServer CPU使用率超过阈值 告警解释 系统每30秒周期性检查SlapdServer节点的CPU使用率,并把实际CPU使用率和阈值相比较,当检测到SlapdServer CPU使用率连续多次(默认值为5)超过设定阈值时,系统将产生此告警。 平滑次数可配置,当平滑次数为1,SlapdServer
ALM-50207 FE的MySQL端口连接数与允许最大连接数的比值超过阈值 告警解释 系统每30秒周期性检查MySQL端口连接数,当检测到当前连接数与设置的FE最大端口连接数的比值超出阈值(默认值为95%)时产生该告警。当前集群设置的FE最大端口连接数由参数“qe_max_co
与HDFS的Balancer接口工作方式类似。Mover能够基于设置的数据存储策略,将集群中的数据重新分布。 通过运行Mover,周期性地检测HDFS文件系统中用户指定的HDFS文件或目录,判断该文件或目录是否满足设置的存储策略,如果不满足,则进行数据迁移,使目标目录或文件满足设定的存储策略。
ALM-14038 Router堆内存使用率超过阈值 告警解释 系统每30秒周期性检测HDFS Router堆内存使用大小和能够分配的最大堆内存大小,计算堆内存使用大小和能够分配的最大堆内存大小的比值得到堆内存使用率,并把实际的HDFS Router堆内存使用率和阈值相比较。HDFS
下,Znode占用数出现持续陡增,两小时增长量超过设定的阈值,则上报告警。对于大量导数据或者迁业务场景下,可以忽略此次告警的上报。 当系统检测到两小时增长量低于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 45448 重要 是 告警参数 类别 参数名称 参数含义
上个周期被终止的Yarn任务数超过阈值(2.x及以前版本) 告警解释 上个10min的周期内,发生被终止的YARN任务数超过阈值。该告警每10min检测一次,如果上个10min周期内,发生YARN任务被终止的数量大于设定的阈值时,会发生该告警。如果在下个10min周期,被终止的Yarn任务数低于阈值时该告警会自动消除。
ALM-16008 Hive服务进程非堆内存使用超出阈值 告警解释 系统每30秒周期性检测Hive非堆内存使用率,并把实际的Hive非堆内存使用率和阈值相比较。当Hive非堆内存使用率超出阈值(默认为最大非堆内存的95%)时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 >
ALM-16046 Hive数据仓库权限被修改 告警解释 系统每60秒周期性检测Hive数据仓库的权限是否被修改,如果修改发出告警。 告警属性 告警ID 告警级别 是否自动清除 16046 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。
ALM-18025 Yarn被终止的任务数超过阈值 告警解释 告警模块按60秒周期检测Yarn root队列上被终止的应用的数量,当root队列上该监控周期内新增的被终止的应用的数量超过50,且连续发生3次以上时,触发该告警。 告警属性 告警ID 告警级别 是否自动清除 18025
ALM-23003 Loader任务执行失败 告警解释 当系统检测到Loader任务执行失败时即时产生该告警。当用户手动处理执行失败的任务后该告警恢复。该告警需要手动清除。 告警属性 告警ID 告警级别 是否自动清除 23003 次要 否 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
ALM-50226 BE实例故障 告警解释 系统每30秒周期性检查BE的进程状态,当检查到该值大于0(0表示状态正常,1表示状态异常)时产生该告警。 当系统检测到BE的进程状态正常时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 50226 紧急 是 告警参数 参数名称 参数含义 来源
ALM-12031 omm用户或密码即将过期(2.x及以前版本) 告警解释 系统每天零点开始,每8小时检测当前系统中omm用户和密码是否过期,如果用户或密码即将在15天内过期,则发送告警。 当系统中omm用户过期的期限修改或密码重置,且告警处理完成时,告警恢复。 告警属性 告警ID
与HDFS的Balancer接口工作方式类似。Mover能够基于设置的数据存储策略,将集群中的数据重新分布。 通过运行Mover,周期性地检测HDFS文件系统中用户指定的HDFS文件或目录,判断该文件或目录是否满足设置的存储策略,如果不满足,则进行数据迁移,使目标目录或文件满足设定的存储策略。