检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
是否自动清除 12040 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 节点的操作系统熵值不足,可能导致该节点上加解密等命令执行慢,进而引起各实例业务处理性能下降,甚至业务进程无法正常执行。
产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 如果主Manager进程资源异常,主备倒换无法进行,影响运维基本功能使用。 可能原因 主备Manager节点间链路异常。 节点名配置错误。 防火墙禁用端口。
参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 主题名 产生告警的Kafka Topic。 对系统的影响 Partition所在的磁盘分区IO过于繁忙,产生告警的Kafka Topic上可能无法写入数据。
参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 磁盘名 产生告警的磁盘名称。 对系统的影响 业务失败:磁盘不可写或不可读时,如果需要修改或使用该磁盘上的数据,可能会导致作业运行失败。 可能原因
19026 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 HBase存在损坏的WAL文件,如果位于该文件上的数据未落盘,会导致这部分数据丢失,业务查询数据时出现部分数据不一致。
NameNode节点存在ALM-12027主机PID使用率超过阈值告警 问题背景与现象 3.1.2及之前的3.x版本集群,NameNode节点存在ALM-12027主机PID使用率超过阈值告警,节点Java进程可能出现“unable to create new native thread”报错。
来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 NameService名 产生告警的NameService名称。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 HDF
参数名称 参数含义 来源 产生告警的集群名称。 角色名 产生告警的角色名称。 主题名 产生告警的Topic名称列表。 对系统的影响 单副本的Topic存在单点故障风险,当副本所在节点异常时,会直接导致Partition没有leader,影响该Topic上的业务。 可能原因 Topic副本数配置不合理。
是否自动清除 14000 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 无法为基于HDFS服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。 可能原因
ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 该进程提供的业务不可用。 可能原因 实例进程异常。 磁盘空间不足。 处理步骤 检查实例进程是否异常。 打开MRS集群详情页面,在告警管理页签的告警列表中,单击
ALM-14029 单副本的块数超过阈值 告警解释 系统每4个小时周期性检测单副本块的数量,并把当前单副本的块数和阈值相比较。单副本的块数量指标默认提供一个阈值范围。当检测到单副本的块数量超出阈值范围时产生该告警。 待补齐的块数量小于阈值时,告警恢复。 告警属性 告警ID 告警级别
集群出现ALM-14012 Journalnode数据不同步告警 问题背景与现象 MRS集群出现ALM-14012 Journalnode数据不同步告警。 原因分析 登录告警节点,查找日志路径“/var/log/Bigdata/hdfs/nn”下Journalnode实例的startDetail
是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 该节点的时间与集群其他节点的时间不同步,可能会导致该节点上的某些FusionInsight应用无法正常运行。如
ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 该节点的时间与集群其它节点的时间不同步,可能会导致该节点上的某些MRS应用无法正常运行。 可能原因 该节点的NTP服务无法正常启动。 该节点与
ALM-14003 丢失的HDFS块数量超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测丢失的块数量,并把丢失的块数量和阈值相比较。丢失的块数量指标默认提供一个阈值范围。当检测到丢失的块数量超出阈值范围时产生该告警。 当丢失的块数量小于或等于阈值时,告警恢复。 告警属性
来源 产生告警的集群名称。 服务名 产生告警的服务名称。 应用名 产生告警的应用名称。 角色名 产生告警的角色名称。 任务名 产生告警的作业名称。 对系统的影响 Flink作业RocksDB的Pending Compaction持续超过阈值,主要反应的是Flink作业的CheckP
ALM-14003 丢失的HDFS块数量超过阈值 告警解释 系统每30秒周期性检测丢失的块数量,并把丢失的块数量和阈值相比较。丢失的块数量指标默认提供一个阈值范围。当检测到丢失的HDFS块数量超出阈值范围时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称
用户问题 集群反复出现“ALM-43006 JobHistory进程堆内存使用超出阈值”告警,且按照告警参考处理无效。 问题现象 集群出现告警“ALM-43006 JobHistory进程堆内存使用超出阈值”并且按照指导处理以后,运行一段时间又会出现同样的告警。 原因分析 可能存
产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 集群无法提供Yarn服务。用户无法执行新的application。已提交的application无法执行。 可能原因 ZooKeeper服务异常。 HDFS服务异常。
是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 HBase存在损坏的StoreFile文件,可能会导致位于该文件上的数据丢失,业务查询数据可能出现不一致。 可能原因