检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
参数含义 定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 Threshold 产生告警的阈值。 对系统的影响 RegionServer RPC写队列数超过阈值,请求队列堆积会导致RegionServ
HBase”修改阈值。当等待同步的wal文件数量小于或等于阈值时,告警消除。 告警属性 告警ID 告警级别 是否自动清除 19020 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger
ALM-50215 FE Thrift各个方法接收的RPC请求中最长的耗时超过阈值 告警解释 系统每30秒周期性检查FE Thrift各个方法接收的RPC请求中最长的耗时,当检查到该值超出阈值(默认值为5000ms)时产生该告警。 当FE Thrift各个方法接收的RPC请求中最长的耗时低于阈值时,告警清除。
ALM-38006 Kafka未完全同步的Partition百分比超过阈值 告警解释 系统每60秒周期性检测Kafka服务未完全同步的Partition数占Partition总数的百分比,当连续3次检测到该比率超出阈值(默认50%)时产生该告警。 平滑次数为1,未完全同步的Par
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Doris元数据所占磁盘空间越来越大,最终可能导致服务异常。
参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 非Master角色的FE节点不能接收到最新的元数据镜像文件,系统可靠性降低。
参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 出现该告警说明某些进程发生了crash。如果是关键进程发生crash,可能会导致集群短暂的不可用。 可能原因 相关进程发生crash。
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 可能导致查询或写入延迟。 可能原因
ALM-50213 FE中和BE交互的线程池中正在排队的任务数超过阈值 告警解释 系统每30秒周期性检查FE中和BE交互的线程池中正在排队的任务数,当检查到该值超出阈值(默认值为10)时产生该告警。该线程池为FE端ThriftServer的工作线程池,对应“fe.conf”文件中
产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Failed Volumes 故障的磁盘列表。 对系统的影响 上报DataNode磁盘故障告警时,表示该DataNode节点上存在故障的磁盘分区,可能会导致已写入的文件丢失。
参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Threshold 产生告警的阈值。 对系统的影响 产生该告警表示HBase服务的znode的数量使用率已经超过规定的阈值,如果不及时处理,可能会导
参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Threshold 产生告警的阈值。 对系统的影响 产生该告警表示HBase服务的znode的容量使用率已经超过规定的阈值,如果不及时处理,可能会导致问题级别升级为紧急,影响数据写入。
ALM-50211 BE的各种定期汇报任务在FE端的队列长度超过阈值 告警解释 系统每30秒周期性检查BE的各种定期汇报任务在FE端的队列长度,当检查到该值超出阈值(默认值为10)时产生该告警。该值反映了汇报任务在Master FE节点上的阻塞程度,数值越大,表示FE处理能力不足。
参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 当前FE实例不可用,无法响应客户端请求。 可能原因
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 ommdba用户过期,OMS数据库无法管理,数据不能访问。 可能原因 该主机ommdba用户过期。 处理步骤 检查系统中ommdba用户是否过期。
ALM-14004 损坏的HDFS块数量超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测损坏的块数量,并把损坏的块数量和阈值相比较。损坏的块数量指标默认提供一个阈值范围。当检测到损坏的块数量超出阈值范围时产生该告警。 当损坏的块数量小于或等于阈值时,告警恢复。建议使用命令(hdfs
ALM-19024 RegionServer RPC响应时间的P99超过阈值 告警解释 系统每30秒周期性检测每个HBase服务的RegionServer实例的RPC请求响应时间的P99。当检测到某个RegionServer上的RPC请求响应时间的P99连续10次超出阈值时产生该告警。
45001 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 用户提交到HetuEngine该故障计算实例的SQL任务会执行失败。 可能原因 HDFS服务异常 Yarn服务异常
来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 导致整个系统任务执行变慢阻塞。 可能原因 可能存在较大的任务阻塞了队列执行时长。
tition)最新生产的消息的log end offset之间的差距(lag)过大(产生消息积压),且超过了用户配置的积压告警规则阈值时产生该告警。 当连续5次检测到log end offset之间的差距(lag)较小(不存在消息积压),且低于了用户配置的积压告警规则阈值时告警恢复。