检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
来源 产生告警的集群名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 附加信息 Trigger Condition 系统当前指标取值满足自定义的告警设置条件 对系统的影响 查询可能会阻塞甚至失败。 可能原因 该Impalad服务维护的查询数量过多,或者阈值设定的太小。
ALM-50220 TCP包接收错误的次数的比率超过阈值 告警解释 系统每30秒周期性检查TCP包接收错误的次数的比率,当检查到该值超出阈值(默认值为5%)时产生该告警。 当TCP包接收错误的次数的比率低于阈值时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 50220
参数名称 参数含义 来源 产生告警的集群名称。 角色名 产生告警的角色名称。 主题名 产生告警的Topic名称列表。 对系统的影响 单副本的Topic存在单点故障风险,当副本所在节点异常时,会直接导致Partition没有leader,影响该Topic上的业务。 可能原因 Topic副本数配置不合理。
定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 NameService名 产生告警的NameService。 附加信息 触发条件 系统当前指标取值满足自定义的告警设置条件、集群外的DataNode节点IP及端口。 对系统的影响 当有脱离集群管控的DataNode时,可能造成数据丢失。
产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 根据告警的定位信息查看是哪个实例进程故障,不同的实例故障会产生不同的影响。 例如HDFS下的实例故障时会分别产生如下影响: DataNode:如果一个
19026 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 HBase存在损坏的WAL文件,如果位于该文件上的数据未落盘,会导致这部分数据丢失,业务查询数据时出现部分数据不一致。
产生告警的集群名称。 服务名 产生告警的服务名称。 应用名 产生告警的应用名称。 角色名 产生告警的角色名称。 任务名 产生告警的作业名称。 对系统的影响 Flink作业RocksDB的Write P95耗时持续超过阈值,主要反应的是Flink作业的CheckPoint的性能,对FlinkServer本身没有影响。
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 可能会导致业务数据不可用,在Doris客户端查询数据失败。
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 影响任务执行和客户端连接FE。 可能原因
是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 HBase存在损坏的StoreFile文件,可能会导致位于该文件上的数据丢失,业务查询数据可能出现不一致。 可能原因
ALM-14029 单副本的块数超过阈值 告警解释 系统每4个小时周期性检测单副本块的数量,并把当前单副本的块数和阈值相比较。单副本的块数量指标默认提供一个阈值范围。当检测到单副本的块数量超出阈值范围时产生该告警。 待补齐的块数量小于阈值时,告警恢复。 告警属性 告警ID 告警级别
期问题。 问题现象 MRS集群产生“ALM-12054 证书文件失效”或“ALM-12055 证书文件即将过期”告警,且告警详情中触发告警的证书为OBS证书。 图1 OBS证书即将过期告警 图2 OBS证书失效告警 原因分析 OBS系统生成的证书有有效期限制,到达有效期后,证书文件失效,因此产生告警。
来源 产生告警的集群名称。 服务名 产生告警的服务名称。 应用名 产生告警的应用名称。 角色名 产生告警的角色名称。 任务名 产生告警的作业名称。 对系统的影响 Flink作业RocksDB的Get P95耗时持续超过阈值,主要反应的是Flink作业的CheckPoint的性能,对FlinkServer本身没有影响。
来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 NameService名 产生告警的NameService名称。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 HDF
来源 产生告警的集群名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 附加信息 Trigger Condition 系统当前指标取值满足自定义的告警设置条件 对系统的影响 查询可能会阻塞甚至失败。 可能原因 该Impalad服务维护的查询数量过多,或者阈值设定的太小。
ALM-18025 Yarn被终止的任务数超过阈值 告警解释 告警模块按60秒周期检测Yarn root队列上被终止的应用的数量,当root队列上该监控周期内新增的被终止的应用的数量超过50,且连续发生3次以上时,触发该告警。 告警属性 告警ID 告警级别 是否自动清除 18025
产生告警的集群名称。 服务名 产生告警的服务名称。 应用名 产生告警的应用名称。 角色名 产生告警的角色名称。 任务名 产生告警的作业名称。 对系统的影响 Flink作业RocksDB的MemTable大小持续超过阈值,主要反应的是Flink作业的CheckPoint的性能,对FlinkServer本身没有影响。
参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 当前BE实例不可用,无法对外提供读写数据功能。 可能原因
ALM-18026 Yarn上运行失败的任务数超过阈值 告警解释 告警模块按60秒周期检测Yarn root队列上失败的应用的数量,当root队列上该监控周期内新增的运行失败的应用的数量超过50时,且连续发生3次以上,触发该告警。 告警属性 告警ID 告警级别 是否自动清除 18026
参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 服务目录 产生告警的目录名称。 角色名 产生告警的角色名称。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 向ZooKeeper数据目录空间写入大量数据,