检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-12083 ommdba密码即将过期 告警解释 系统每天零点开始,每8小时检测当前系统中ommdba密码是否即将过期,如果当前时间与ommdba密码过期时间剩余不足15天,则发送告警。 当系统中ommdba用户密码过期的期限重置,当前状态为正常,告警恢复。 告警属性 告警ID
ALM-14009 Dead DataNode数量超过阈值 告警解释 系统每30秒周期性检测HDFS集群处于故障状态的DataNode数量,并把实际的故障状态的DataNode数量和阈值相比较。故障状态的DataNode数量指标默认提供一个阈值范围。当HDFS集群故障状态的Dat
ALM-18017 NodeManager非堆内存使用率超过阈值 告警解释 系统每30秒周期性检测Yarn NodeManager非堆内存使用率,并把实际的Yarn NodeManager非堆内存使用率和阈值相比较。当Yarn NodeManager非堆内存使用率超出阈值(默认为最大非堆内存的90%)时产生该告警。
ode服务端进程。 原因分析 常见的进程被异常终止有2种原因: Java进程OOM被终止 一般Java进程都会配置OOM Killer,当检测到OOM会自动终止进程,OOM日志通常被打印到out日志中,此时可以看运行日志(如DataNode的日志路径为 /var/log/Bigd
od,Bad,Partially Healthy,Unknown四种状态 ,四种状态除了取决于Hive本身服务的可用性(会用简单的SQL来检测Hive服务的可用性),还取决于Hive服务所依赖的其他组件的服务状态。 Hive实例分为Hiveserver和Metastore两种,健康状态有Good,Concerning
负载均衡方案 方案对比 ELB 支持多种请求策略 故障自动检测转移 后端ClickHouse扩容新增节点只需要修改ELB上的配置即可 BalancedClickhouseDataSource 内部随机方式分发请求,可能会导致负载不均匀 故障检测能力不足 当前通过ELB访问ClickHouse
默认一天),导致认证失败。 IBM JDK的机制跟Oracle JDK的机制不同,IBM JDK在认证登录后的使用过程中做了时间检查却没有检测外部的时间更新,导致即使显式调用relogin也无法得到刷新。 解决措施: 通常情况下,在发现JDBC connection不可用的时候,
默认一天),导致认证失败。 IBM JDK的机制跟Oracle JDK的机制不同,IBM JDK在认证登录后的使用过程中做了时间检查却没有检测外部的时间更新,导致即使显式调用Hive relogin也无法得到刷新。 解决措施: 通常情况下,在发现Hive connection不可
默认一天),导致认证失败。 IBM JDK的机制跟Oracle JDK的机制不同,IBM JDK在认证登录后的使用过程中做了时间检查却没有检测外部的时间更新,导致即使显式调用relogin也无法得到刷新。 解决措施: 通常情况下,在发现JDBC connection不可用的时候,
ALM-26054 Storm Nimbus堆内存使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测Storm Nimbus堆内存使用率,并把实际的Storm Nimbus堆内存使用率和阈值相比较。当Storm Nimbus堆内存使用率超出阈值(默认值为80%)时产生该告警。
ALM-45325 Presto服务不可用(2.x及以前版本) 告警解释 系统每60秒周期性检测Presto服务状态。当Presto服务不可用时产生该告警。 当Presto服务恢复时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45325 紧急 是 告警参数 参数名称
默认一天),导致认证失败。 IBM JDK的机制跟Oracle JDK的机制不同,IBM JDK在认证登录后的使用过程中做了时间检查却没有检测外部的时间更新,导致即使显式调用Hive relogin也无法得到刷新。 解决措施: 通常情况下,在发现Hive connection不可
ALM-12082 ommdba用户即将过期 告警解释 系统每天零点开始,每8小时检测当前系统中ommdba用户是否即将过期,如果用户即将在15天内过期,则发送告警。 当系统中ommdba用户过期的期限重置,当前状态为正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12082
ALM-14007 NameNode堆内存使用率超过阈值 告警解释 系统每30秒周期性检测HDFS NameNode堆内存使用率,并把实际的HDFS NameNode堆内存使用率和阈值相比较。HDFS NameNode堆内存使用率指标默认提供一个阈值范围。当HDFS NameNo
ALM-23001 Loader服务不可用 告警解释 系统每60秒周期性检测Loader服务的可用性。当Loader服务不可用时产生该告警。当Loader服务恢复时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 23001 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
ALM-23001 Loader服务不可用(2.x及以前版本) 告警解释 系统每60秒周期性检测Loader服务的可用性。当Loader服务不可用时产生该告警。当Loader服务恢复时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 23001 致命 是 告警参数 参数名称
ALM-12077 omm用户过期 告警解释 系统每天零点开始,每8小时检测当前系统中omm用户是否过期,如果用户过期,则发送告警。 当系统中omm用户过期的期限重置,当前状态为正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12077 重要 是 告警参数 参数名称
ALM-12078 omm密码过期 告警解释 系统每天零点开始,每8小时检测当前系统中omm密码是否过期,如果密码过期,则发送告警。 当系统中omm密码过期的期限修改,当前状态为正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12078 重要 是 告警参数 参数名称
ALM-16003 Background线程使用率超过阈值 告警解释 系统每30秒周期性检测Background线程使用率情况,默认阈值为90%。如果Hive使用的background线程池使用率超过阈值,则发出告警。 告警属性 告警ID 告警级别 是否自动清除 16003 重要
ALM-19000 HBase服务不可用 告警解释 告警模块按120秒周期检测HBase服务状态。当HBase服务不可用时产生该告警。 HBase服务恢复时,告警清除。 告警属性 告警ID 告警级别 是否自动清除 19000 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。