检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-18016 ResourceManager非堆内存使用率超过阈值 告警解释 系统每30秒周期性检测Yarn ResourceManager非堆内存使用率,并把实际的Yarn ResourceManager非堆内存使用率和阈值相比较。当Yarn ResourceManage
ALM-18019 JobHistoryServer非堆内存使用率超过阈值 告警解释 系统每30秒周期性检测MapReduce JobHistoryServer非堆内存使用率,并把实际的MapReduce JobHistoryServer非堆内存使用率和阈值相比较。当MapReduce
ALM-27001 DBService服务不可用(2.x及以前版本) 告警解释 告警模块按30秒周期检测DBService服务状态。当DBService服务不可用时产生该告警。 DBService服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除 27001 致命 是
负载均衡方案 方案对比 ELB 支持多种请求策略 故障自动检测转移 后端ClickHouse扩容新增节点只需要修改ELB上的配置即可 BalancedClickhouseDataSource 内部随机方式分发请求,可能会导致负载不均匀 故障检测能力不足 当前通过ELB访问ClickHouse
ALM-45293 Ranger用户同步异常 本章节仅适用于MRS 3.3.1及之后版本。 告警解释 系统每5分钟周期性检测UserSync进程的用户同步情况,当存在同步异常时产生该告警。当用户同步正常时,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 45293 重要
ALM-45592 IoTDBServer RPC执行时长超过阈值 告警解释 当60s周期内检测到IoTDBServer进程RPC超出阈值时产生该告警。当IoTDBServer进程RPC低于阈值时,告警清除。 告警属性 告警ID 告警级别 是否自动清除 45592 重要 是 告警参数
ALM-14009 故障DataNode数量超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测HDFS集群处于故障状态的DataNode数量,并把实际的故障状态的DataNode数量和阈值相比较。故障状态的DataNode数量指标默认提供一个阈值范围。当HDFS集群故
x及以前版本) 告警解释 系统每30秒周期性检查YARN服务处于挂起状态(Pending)的任务所占内存量,并把挂起状态任务的内存量和阈值进行比较。当检测到挂起状态任务的内存量超过阈值时产生该告警。 用户可通过“系统设置> 阈值配置 > 服务 > Yarn > 队列root挂起的内存量 > 队列root挂起的内存量”修改阈值。
ALM-14019 DataNode非堆内存使用率超过阈值 告警解释 系统每30秒周期性检测HDFS DataNode非堆内存使用率,并把实际的HDFS DataNode非堆内存使用率和阈值相比较。HDFS DataNode非堆内存使用率指标默认提供一个阈值范围。当HDFS Da
ALM-14039 集群内存在慢DataNode 告警解释 系统每60秒周期性检测HDFS DataNode实例每秒出现的慢操作次数,并把次数与阈值相比较。当HDFS DataNode实例持续3分钟出现每秒的慢操作次数超出阈值,产生该告警。 当HDFS DataNode实例每秒出
ALM-20002 Hue服务不可用 告警解释 系统按60秒周期性检测Hue服务状态。当Hue服务不可用时产生该告警。 当Hue服务恢复时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 20002 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名
ALM-12077 omm用户过期 告警解释 系统每天零点开始,每8小时检测当前系统中omm用户是否过期,如果用户过期,则发送告警。 当系统中omm用户过期的期限重置,当前状态为正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12077 重要 是 告警参数 参数名称
ALM-12078 omm密码过期 告警解释 系统每天零点开始,每8小时检测当前系统中omm密码是否过期,如果密码过期,则发送告警。 当系统中omm密码过期的期限修改,当前状态为正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12078 重要 是 告警参数 参数名称
ALM-16003 Background线程使用率超过阈值 告警解释 系统每30秒周期性检测Background线程使用率情况,默认阈值为90%。如果Hive使用的background线程池使用率超过阈值,则发出告警。 告警属性 告警ID 告警级别 是否自动清除 16003 重要
ALM-19000 HBase服务不可用 告警解释 告警模块按120秒周期检测HBase服务状态。当HBase服务不可用时产生该告警。 HBase服务恢复时,告警清除。 告警属性 告警ID 告警级别 是否自动清除 19000 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
如果连接配置,例如IP地址、端口、访问用户等信息不正确,将导致验证连接失败无法保存。另外VPC相关设置,也可能影响网络连通性。 用户可以直接单击“测试”立即检测连接是否可用。 查看连接 在Loader页面,单击“管理连接”。 如果集群启用了Kerberos认证,则默认显示所有当前用户创建的连接,不支持显示其他用户创建的连接。
ALM-20002 Hue服务不可用(2.x及以前版本) 告警解释 系统按60秒周期性检测Hue服务状态。当Hue服务不可用时产生该告警。 当Hue服务恢复时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 20002 致命 是 告警参数 参数名称 参数含义 ServiceName
ALM-12006 节点故障(2.x及以前版本) 告警解释 Controller按30秒周期检测NodeAgent状态。当Controller连续三次未接收到某个NodeAgent的状态报告时,产生该告警。 当Controller可以正常接收时,告警恢复。 告警属性 告警ID 告警级别
ALM-14018 NameNode非堆内存使用率超过阈值 告警解释 系统每30秒周期性检测HDFS NameNode非堆内存使用率,并把实际的HDFS NameNode非堆内存使用率和阈值相比较。HDFS NameNode非堆内存使用率指标默认提供一个阈值范围。当HDFS Na
ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值 告警解释 系统每30秒周期性检测连接到HiveServer的Session数占HiveServer允许的最大session数的百分比,该指标可通过“集群 > 待操作集群的名称 > 服务 >