检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-23003 Loader任务执行失败 告警解释 当系统检测到Loader任务执行失败时即时产生该告警。当用户手动处理执行失败的任务后该告警恢复。该告警需要手动清除。
ALM-14038 Router堆内存使用率超过阈值 告警解释 系统每30秒周期性检测HDFS Router堆内存使用大小和能够分配的最大堆内存大小,计算堆内存使用大小和能够分配的最大堆内存大小的比值得到堆内存使用率,并把实际的HDFS Router堆内存使用率和阈值相比较。
ALM-16046 Hive数据仓库权限被修改 告警解释 系统每60秒周期性检测Hive数据仓库的权限是否被修改,如果修改发出告警。 告警属性 告警ID 告警级别 是否自动清除 16046 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
ALM-18025 Yarn被终止的任务数超过阈值 告警解释 告警模块按60秒周期检测Yarn root队列上被终止的应用的数量,当root队列上该监控周期内新增的被终止的应用的数量超过50,且连续发生3次以上时,触发该告警。
当系统检测到BE的进程状态正常时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 50226 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。
当检测到租户BE节点的内存使用率低于阈值时,告警恢复。 该告警仅适用于MRS 3.3.1及之后版本。
告警解释 系统每30秒周期性检测JobServer中提交失败的接口占比,当失败率超出阈值(默认值为80%)时,触发该告警。 当失败率低于阈值时,告警恢复。
告警解释 系统每30秒周期性检测JobServer中终止失败的接口占比,当失败率超出阈值(默认值为80%)时,触发该告警。 当失败率低于阈值时,告警恢复。
设置omm用户过期的期限: chage -E '指定日期' omm 设置omm密码的有效天数: chage -M '天数' omm 等待下周期检测,观察告警是否自动清除。 是,操作结束。 否,执行2。 收集故障信息。
该告警每10min检测一次,如果上个10min周期内,发生YARN任务被终止的数量大于设定的阈值时,会发生该告警。如果在下个10min周期,被终止的Yarn任务数低于阈值时该告警会自动消除。
当系统检测到FE的进程状态正常时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 50225 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。
当检测到FE的查询并发数低于阈值时,告警恢复。 该告警仅适用于MRS 3.3.1及之后版本。 告警属性 告警ID 告警级别 是否可自动清除 50227 重要 是 告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。
ALM-12037 NTP服务器异常 告警解释 系统每60秒周期性检测NTP服务器的状态,当连续10次监控到NTP服务器异常时产生该告警。 当NTP服务器异常消除时,该告警恢复。
系统每天凌晨3点开始周期性检测转储服务器,如果转储服务器满足配置条件,审计日志可以成功转储。审计日志转储失败,系统产生此告警。如果第三方服务器的转储目录磁盘空间不足,或者用户修改了转储服务器的用户名、密码或转储目录,将会导致审计日志转储失败。
ALM-12012 NTP服务异常 告警解释 系统每60s检查一次节点NTP服务与主OMS节点NTP服务是否正常同步时间,连续两次检测NTP服务未同步上时产生该告警。
当系统检测到BE上执行的各类任务中不存在某种类型的任务失败次数有增长趋势时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 50224 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。
ALM-45435 ClickHouse表元数据不一致 告警解释 检测到分布式表本身,或分布式表对应的本地表的元数据不一致持续180min后,系统产生此告警。 当分布式表本身,或分布式表对应的本地表的元数据一致时,告警自动清除。
已损坏的Jar包 如果检测到已损坏的Jar包,将输出“Share Lib jar file(s) mismatch on hdfs:”以及损坏的Jar包信息。
系统默认每3秒采集一次数据,在300秒内至少50%次检测到的svctm时延达到500ms。 系统采集周期为3秒,检测周期为30秒或300秒,当系统连续3个30秒、300秒的周期均不满足对应条件时,告警自动清除。
Yarn运维管理 Yarn常用配置参数 Yarn日志介绍 配置Yarn本地化日志级别 检测Yarn内存使用情况 更改NodeManager的存储目录 配置Yarn大作业扫描 父主题: 使用Yarn