检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-18017 NodeManager非堆内存使用率超过阈值 告警解释 系统每30秒周期性检测Yarn NodeManager非堆内存使用率,并把实际的Yarn NodeManager非堆内存使用率和阈值相比较。
告警解释 系统每60秒周期检测FlinkServer主备节点同步数据情况,当备FlinkServer无法与主FlinkServer同步文件时,产生该告警。 当备FlinkServer与主FlinkServer正常同步文件时,告警恢复。
当检测到Flume Agent进程故障恢复,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 24001 一般 是 告警参数 参数名称 参数含义 ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。
例如,系统每10分钟检测是否存在老化文件,如果发现有老化文件,则删除。对于未老化文件,则会存储在checkpoint列表中,等待下一次检查。 如果此参数的值设置为0,则表示系统不会检查老化文件,所有老化文件会被保存在系统中。 取值范围:0~fs.trash.interval。
ALM-14019 DataNode非堆内存使用率超过阈值 告警解释 系统每30秒周期性检测HDFS DataNode非堆内存使用率,并把实际的HDFS DataNode非堆内存使用率和阈值相比较。HDFS DataNode非堆内存使用率指标默认提供一个阈值范围。
ALM-14039 集群内存在慢DataNode 告警解释 系统每60秒周期性检测HDFS DataNode实例每秒出现的慢操作次数,并把次数与阈值相比较。当HDFS DataNode实例持续3分钟出现每秒的慢操作次数超出阈值,产生该告警。
ALM-20002 Hue服务不可用 告警解释 系统按60秒周期性检测Hue服务状态。当Hue服务不可用时产生该告警。 当Hue服务恢复时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 20002 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
ALM-14009 故障DataNode数量超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测HDFS集群处于故障状态的DataNode数量,并把实际的故障状态的DataNode数量和阈值相比较。故障状态的DataNode数量指标默认提供一个阈值范围。
当检测到挂起状态任务的内存量超过阈值时产生该告警。 用户可通过“系统设置> 阈值配置 > 服务 > Yarn > 队列root挂起的内存量 > 队列root挂起的内存量”修改阈值。 当挂起状态任务的内存量小于或等于阈值时,告警清除。
告警解释 系统每5分钟周期性检测UserSync进程的用户同步情况,当存在同步异常时产生该告警。当用户同步正常时,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 45293 重要 是 告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群名称。
ALM-45592 IoTDBServer RPC执行时长超过阈值 告警解释 当60s周期内检测到IoTDBServer进程RPC超出阈值时产生该告警。当IoTDBServer进程RPC低于阈值时,告警清除。
ALM-25005 Nscd服务异常 告警解释 系统每60秒周期性检测nscd服务的状态,如果连续4次(3分钟)查询不到nscd进程或者无法获取LdapServer中的用户时,产生该告警。 当进程恢复且可以获取LdapServer中的用户时,告警恢复。
ALM-25006 Sssd服务异常 告警解释 系统每60秒周期性检测sssd服务的状态,如果连续4次(3分钟)查询不到sssd进程或者无法获取LdapServer中的用户时,产生该告警。 当进程恢复且可以获取LdapServer中的用户时,告警恢复。
ALM-25008 SlapdServer CPU使用率超过阈值 告警解释 系统每30秒周期性检查SlapdServer节点的CPU使用率,并把实际CPU使用率和阈值相比较,当检测到SlapdServer CPU使用率连续多次(默认值为5)超过设定阈值时,系统将产生此告警。
当检测到连接状态码为零时,告警恢复。 该告警仅适用于MRS 3.3.1及之后版本。 告警属性 告警ID 告警级别 是否可自动清除 50229 紧急 是 告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。
ALM-12079 omm用户即将过期 告警解释 系统每天零点开始,每8小时检测当前系统中omm用户是否即将过期,如果当前时间与用户过期时间剩余不足15天,则发送告警。 当系统中omm用户过期的期限重置,当前状态为正常,告警恢复。
ALM-12080 omm密码即将过期 告警解释 系统每天零点开始,每8小时检测当前系统中omm密码是否即将过期,如果当前时间与密码过期时间剩余不足15天,则发送告警。 当系统中omm密码过期的期限重置,当前状态为正常,告警恢复。
ALM-12100 AD服务器连接异常 告警解释 第三方AD对接后,按照同步时间周期(默认60分钟)或手动同步第三方AD域用户,在同步数据时检查AD服务状态,当连续3次检测到AD服务不可用时产生告警。AD服务恢复时,告警清除。 该章节适用于MRS 3.1.5及之后版本。
ALM-12101 AZ不健康 告警解释 AZ容灾开启后,系统每隔5分钟检查一次当前系统上AZ的健康状态,当检测到AZ健康状态为亚健康或者不健康时产生告警。AZ健康状态恢复健康时,告警清除。
ALM-12102 AZ高可用组件未按容灾需求部署 告警解释 告警模块按照5分钟周期检测AZ高可用组件部署状态。当开启AZ后,支持容灾的组件未按容灾需求部署时产生该告警。组件恢复按容灾需求部署时,告警清除。