检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
负载均衡方案 方案对比 ELB 支持多种请求策略 故障自动检测转移 后端ClickHouse扩容新增节点只需要修改ELB上的配置即可 BalancedClickhouseDataSource 内部随机方式分发请求,可能会导致负载不均匀 故障检测能力不足 当前通过ELB访问ClickHouse
od,Bad,Partially Healthy,Unknown四种状态 ,四种状态除了取决于Hive本身服务的可用性(会用简单的SQL来检测Hive服务的可用性),还取决于Hive服务所依赖的其他组件的服务状态。 Hive实例分为Hiveserver和Metastore两种,健康状态有Good,Concerning
x及以前版本) 告警解释 Flume Agent监控模块对Flume Agent状态进行监控,当Flume Agent进程故障时,系统产生此告警。 当检测到Flume Agent进程故障恢复,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 24001 一般 是 告警参数
监控指标转储失败 告警解释 用户在FusionInsight Manager界面配置监控指标转储后,系统按转储时间间隔(默认60秒)周期性检测监控指标转储结果,转储失败时产生该告警。 转储成功后,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12038 重要 是 告警参数
ALM-12083 ommdba密码即将过期 告警解释 系统每天零点开始,每8小时检测当前系统中ommdba密码是否即将过期,如果当前时间与ommdba密码过期时间剩余不足15天,则发送告警。 当系统中ommdba用户密码过期的期限重置,当前状态为正常,告警恢复。 告警属性 告警ID
ALM-45641 FlinkServer主备节点同步数据异常 本章节适用于MRS 3.2.0及以后版本。 告警解释 系统每60秒周期检测FlinkServer主备节点同步数据情况,当备FlinkServer无法与主FlinkServer同步文件时,产生该告警。 当备FlinkS
告警解释 系统每30秒周期性检查MemArtsCC组件的CCWorker进程内部所有read请求的平均时延,当检查到超过限制时触发该告警。 当检测到CCWorker进程内的read请求时延下降到低于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 47004 重要 是
默认一天),导致认证失败。 IBM JDK的机制跟Oracle JDK的机制不同,IBM JDK在认证登录后的使用过程中做了时间检查却没有检测外部的时间更新,导致即使显式调用relogin也无法得到刷新。 解决措施: 通常情况下,在发现JDBC connection不可用的时候,
默认一天),导致认证失败。 IBM JDK的机制跟Oracle JDK的机制不同,IBM JDK在认证登录后的使用过程中做了时间检查却没有检测外部的时间更新,导致即使显式调用relogin也无法得到刷新。 解决措施: 通常情况下,在发现JDBC connection不可用的时候,
ALM-12004 OLdap资源异常 告警解释 系统按60秒周期检测Ldap资源,当连续6次监控到Manager中的Ldap资源异常时,系统产生此告警。 当Manager中的Ldap资源恢复,且告警处理完成时,告警恢复。 MRS 3.3.1及之后版本,告警名称从“Oldap资源异常”变成“Manager
ALM-18008 ResourceManager堆内存使用率超过阈值 告警解释 系统每30秒周期性检测Yarn ResourceManager堆内存使用率,并把实际的Yarn ResourceManager堆内存使用率和阈值相比较。当Yarn ResourceManager堆内
ALM-23001 Loader服务不可用 告警解释 系统每60秒周期性检测Loader服务的可用性。当Loader服务不可用时产生该告警。当Loader服务恢复时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 23001 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
ALM-18009 MapReduce JobHistoryServer堆内存使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测Mapreduce JobHistoryServer堆内存使用率,并把实际的Mapreduce JobHistoryServer堆内存使用率和阈值相比较。当Mapreduce
ALM-23001 Loader服务不可用(2.x及以前版本) 告警解释 系统每60秒周期性检测Loader服务的可用性。当Loader服务不可用时产生该告警。当Loader服务恢复时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 23001 致命 是 告警参数 参数名称
如果连接配置,例如IP地址、端口、访问用户等信息不正确,将导致验证连接失败无法保存。另外VPC相关设置,也可能影响网络连通性。 用户可以直接单击“测试”立即检测连接是否可用。 查看连接 在Loader页面,单击“管理连接”。 如果集群启用了Kerberos认证,则默认显示所有当前用户创建的连接,不支持显示其他用户创建的连接。
ALM-26054 Storm Nimbus堆内存使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测Storm Nimbus堆内存使用率,并把实际的Storm Nimbus堆内存使用率和阈值相比较。当Storm Nimbus堆内存使用率超出阈值(默认值为80%)时产生该告警。
ALM-14008 DataNode堆内存使用率超过阈值 告警解释 系统每30秒周期性检测HDFS DataNode堆内存使用率,并把实际的HDFS DataNode堆内存使用率和阈值相比较。HDFS DataNode堆内存使用率指标默认提供一个阈值范围。当HDFS DataNo
ALM-14018 NameNode非堆内存使用率超过阈值 告警解释 系统每30秒周期性检测HDFS NameNode非堆内存使用率,并把实际的HDFS NameNode非堆内存使用率和阈值相比较。HDFS NameNode非堆内存使用率指标默认提供一个阈值范围。当HDFS Na
ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值 告警解释 系统每30秒周期性检测连接到HiveServer的Session数占HiveServer允许的最大session数的百分比,该指标可通过“集群 > 待操作集群的名称 > 服务 >
ALM-16045 Hive数据仓库被删除 告警解释 系统每60秒周期性检测Hive数据仓库情况,Hive数据仓库被删除告警。 告警属性 告警ID 告警级别 是否自动清除 16045 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。