检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-18008 Yarn ResourceManager堆内存使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测Yarn ResourceManager堆内存使用率,并把实际的Yarn ResourceManager堆内存使用率和阈值相比较。当Yarn Re
ALM-12061 进程使用率超过阈值 告警解释 系统每30秒周期性检测omm进程使用情况,执行ps -o nlwp,pid,args, -u omm | awk '{sum+=$1} END {print "", sum}'命令,获取当前omm用户并发的所有进程数,在omm用户下,执行ulimit
ALM-12186 用户CGroup任务数使用率超过阈值 告警解释 系统每5分钟周期性检测omm用户CGroup任务数使用情况,当CGroup任务使用率超过90%时产生该告警,当使用率小于或等于90%时,告警恢复。 CGroup任务使用率 = CGroup任务使用数 / 最大CGroup任务数。
ALM-26051 Storm服务不可用 告警解释 系统按照30秒的周期检测Storm服务是否可用,当集群全部的Nimbus节点异常时,Storm服务不可用,系统产生此告警。 当Storm服务恢复正常,告警自动清除。 告警属性 告警ID 告警级别 是否自动清除 26051 紧急 是
ALM-26051 Storm服务不可用(2.x及以前版本) 告警解释 系统按照30秒的周期检测Storm服务是否可用,当集群全部的Nimbus实例所在节点异常时,Storm服务不可用,系统产生此告警。 当Storm服务恢复正常,告警自动清除。 告警属性 告警ID 告警级别 可自动清除
ALM-45595 IoTDBServer跨空间合并执行时长超过阈值 告警解释 当检测到跨空间合并时长超出阈值时产生该告警。当跨空间合并时长低于阈值时,告警清除。 告警属性 告警ID 告警级别 是否自动清除 45595 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
默认一天),导致认证失败。 IBM JDK的机制跟Oracle JDK的机制不同,IBM JDK在认证登录后的使用过程中做了时间检查却没有检测外部的时间更新,导致即使显式调用relogin也无法得到刷新。 解决措施: 通常情况下,在发现JDBC connection不可用的时候,
默认一天),导致认证失败。 IBM JDK的机制跟Oracle JDK的机制不同,IBM JDK在认证登录后的使用过程中做了时间检查却没有检测外部的时间更新,导致即使显式调用Hive relogin也无法得到刷新。 解决措施: 通常情况下,在发现Hive connection不可
默认一天),导致认证失败。 IBM JDK的机制跟Oracle JDK的机制不同,IBM JDK在认证登录后的使用过程中做了时间检查却没有检测外部的时间更新,导致即使显式调用relogin也无法得到刷新。 解决措施: 通常情况下,在发现JDBC connection不可用的时候,
默认一天),导致认证失败。 IBM JDK的机制跟Oracle JDK的机制不同,IBM JDK在认证登录后的使用过程中做了时间检查却没有检测外部的时间更新,导致即使显式调用Hive relogin也无法得到刷新。 解决措施: 通常情况下,在发现Hive connection不可
ALM-26054 Storm Nimbus堆内存使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测Storm Nimbus堆内存使用率,并把实际的Storm Nimbus堆内存使用率和阈值相比较。当Storm Nimbus堆内存使用率超出阈值(默认值为80%)时产生该告警。
Doris中存在异常Tablet 告警解释 告警模块按5分钟周期检查Doris集群中是否存在异常的Tablet,当存在异常Tablet时,产生此告警。 当检测到Doris集群中不存在异常Tablet时,告警恢复。 该告警仅适用于MRS 3.5.0及之后版本。 告警属性 告警ID 告警级别 是否可自动清除
告警模块按5分钟周期检查Doris集群中是否存在大于3GB(可通过“alarm_tablet_max_size”参数修改该值)的Tablet,如果存在则产生此告警。 当检测到Doris集群中不存在大于3GB的Tablet时,告警恢复。 该告警仅适用于MRS 3.5.0及之后版本。 告警属性 告警ID 告警级别
ALM-45325 Presto服务不可用(2.x及以前版本) 告警解释 系统每60秒周期性检测Presto服务状态。当Presto服务不可用时产生该告警。 当Presto服务恢复时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45325 紧急 是 告警参数 参数名称
interval”的值。检查点程序每次运行时都会创建一个新的检查点并会移除fs.trash.interval分钟前创建的检查点。例如,系统每10分钟检测是否存在老化文件,如果发现有老化文件,则删除。对于未老化文件,则会存储在checkpoint列表中,等待下一次检查。 如果此参数的值设置为
负载均衡方案 方案对比 ELB 支持多种请求策略 故障自动检测转移 后端ClickHouse扩容新增节点只需要修改ELB上的配置即可 BalancedClickhouseDataSource 内部随机方式分发请求,可能会导致负载不均匀 故障检测能力不足 当前通过ELB访问ClickHouse
ode服务端进程。 原因分析 常见的进程被异常终止有2种原因: Java进程OOM被终止 一般Java进程都会配置OOM Killer,当检测到OOM会自动终止进程,OOM日志通常被打印到out日志中,此时可以看运行日志(如DataNode的日志路径为 /var/log/Bigd
od,Bad,Partially Healthy,Unknown四种状态 ,四种状态除了取决于Hive本身服务的可用性(会用简单的SQL来检测Hive服务的可用性),还取决于Hive服务所依赖的其他组件的服务状态。 Hive实例分为Hiveserver和Metastore两种,健康状态有Good,Concerning
ALM-12083 ommdba密码即将过期 告警解释 系统每天零点开始,每8小时检测当前系统中ommdba密码是否即将过期,如果当前时间与ommdba密码过期时间剩余不足15天,则发送告警。 当系统中ommdba用户密码过期的期限重置,当前状态为正常,告警恢复。 告警属性 告警ID
ALM-14009 Dead DataNode数量超过阈值 告警解释 系统每30秒周期性检测HDFS集群处于故障状态的DataNode数量,并把实际的故障状态的DataNode数量和阈值相比较。故障状态的DataNode数量指标默认提供一个阈值范围。当HDFS集群故障状态的Dat