检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
是否可自动清除 45438 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 磁盘路径 产生告警的磁盘路径 对系统的影响 磁盘使用率高可能导致ClickHouse写入执行失败。 可能原因 C
ALM-14010 NameService服务异常(2.x及以前版本) 告警解释 系统每180秒周期性检测NameService服务状态,当检测到NameService服务不可用时产生该告警。 NameService服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除
6版本(CentOS 7.6) 同时为弹性云服务分配足够的磁盘空间,例如“40GB”。 弹性云服务器的VPC需要与MRS集群在同一个VPC中。 弹性云服务器的安全组需要和MRS集群Master节点的安全组相同。 弹性云服务器操作系统已安装NTP服务,且NTP服务运行正常。 如果未安装,在配置了yum源的情况下,可执行yum
参数含义 定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 内存使用过高,部分查询任务可能因为内存不足而失败。
ALM-19009 HBase服务进程直接内存使用率超出阈值 告警解释 系统每30秒周期性检测HBase服务直接内存使用状态,当检测到HBase服务直接内存使用率超出阈值(最大内存的90%)时产生该告警。 直接内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除
ALM-25000 LdapServer服务不可用 告警解释 系统按30秒周期性检测LdapServer的服务状态,当检测到两个LdapServer服务均异常时产生该告警。 当检测到一个或两个LdapServer服务恢复时告警恢复。 告警属性 告警ID 告警级别 是否自动清除 25000
义阈值(默认150)时,系统产生此告警。 当系统检测到的数量减少到阈值以下时,告警将自动解除。 告警属性 告警ID 告警级别 是否自动清除 29012 重要 是 告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称
义阈值(默认150)时,系统产生此告警。 当系统检测到的数量减少到阈值以下时,告警将自动解除。 告警属性 告警ID 告警级别 是否自动清除 29010 重要 是 告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称
ALM-19008 HBase服务进程堆内存使用率超出阈值 告警解释 系统每30秒周期性检测HBase服务堆内存使用状态,当检测到HBase服务堆内存使用率超出阈值(最大内存的90%)时产生该告警。 告警属性 告警ID 告警级别 是否自动清除 19008 重要 是 告警参数 参数名称
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 DataNode可用直接内存不足,可能会造成内存溢出导致服务崩溃。 可能原因 该节点DataNode实例直接
是否自动清除 12006 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 NodeAgent代理进程异常,无法上报心跳至平台。如果因为网络、硬件故障或ssh互信造成,则组件业务无法保证正常。
定位信息 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 Detail 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 当查询并发数过大时,会消耗大量的系统资源,导致系统响应时间变慢,甚至拒绝后续查询。
产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Doris元数据所占磁盘空间越来越大,最终可能导致服务异常。 可能原因
Kafka是一个分布式的消息发布-订阅系统。它采用独特的设计提供了类似JMS的特性,主要用于处理活跃的流式数据。 Kafka有很多适用的场景:消息队列、行为跟踪、运维数据监控、日志收集、流处理、事件溯源、持久化日志等。 Kafka有如下几个特点: 高吞吐量 消息持久化到磁盘 分布式系统易扩展 容错性好
ALM-14010 NameService服务异常 告警解释 系统每180秒周期性检测NameService服务状态,当检测到NameService服务不可用时产生该告警。 NameService服务恢复时,告警清除。 告警属性 告警ID 告警级别 是否自动清除 14010 重要
参数含义 ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 提示用户证书文件即将过期,如果证书文件过期,则会导致部分功能受限,无法正常使用。 可能原因 系统证书文件(CA证书、HA根证书或者HA用户证书)剩余有效期小于证书的告警阈值。
登录华为云管理控制台。 在服务列表中选择“管理与监管 > 统一身份认证服务”。 选择“委托 > 创建委托”。 设置“委托名称”。例如:mrs_ecs_obs。 “委托类型”选择“云服务”,在“云服务”中选择“弹性云服务器 ECS 裸金属服务器 BMS”,授权ECS或BMS调用OBS服务,如图2所示。
参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Lost Host 丢失节点的主机列表。 对系统的影响 丢失的NodeManager节点无法提供Yarn服务。 容器减少,集群性能下降。 可能原因 N
Kafka是一个分布式的消息发布-订阅系统。它采用独特的设计提供了类似JMS的特性,主要用于处理活跃的流式数据。 Kafka有很多适用的场景:消息队列、行为跟踪、运维数据监控、日志收集、流处理、事件溯源、持久化日志等。 Kafka有如下几个特点: 高吞吐量 消息持久化到磁盘 分布式系统易扩展 容错性好
ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 故障的NodeManager节点无法提供Yarn服务。 容器减少,集群性能下降。