检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-43008 JobHistory进程直接内存使用超出阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测JobHistory进程直接内存使用状态,当检测到JobHistory进程直接内存使用率超出阈值(最大内存的90%)时产生该告警。 告警属性 告警ID 告警级别 可自动清除
是否自动清除 12005 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 Manager中的Kerberos资源异常,组件WebUI认证服务不可用,无法对
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 HDFS DataNode堆内存使用率过高,会影响到HDFS的数据读写性能。 可能原因 HDFS DataNode配置的堆内存不足。
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 NameNode进程的垃圾回收时间过长,可能影响该NameNode进程正常提供服务,用户无法读写文件。 可能原因
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 DataNode进程的垃圾回收时间过长,可能影响该DataNode进程正常提供服务,用户无法读写文件。 可能原因
ALM-16045 Hive数据仓库被删除 告警解释 系统每60秒周期性检测Hive数据仓库情况,Hive数据仓库被删除告警。 告警属性 告警ID 告警级别 是否自动清除 16045 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 MapReduce JobHistoryServer非堆内存使用率过高,会影响MapReduce任务提交和运
产生告警的服务名称。 角色名 产生告警的角色名称。 应用名 产生告警的应用名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 任务执行超时后的运行时间内,该告警一直存在,但任务仍继续正常执行,没有任何影响。 可能原因 指定的超时时间少于所需执行时间。
ALM-45005 HetuEngine计算实例CPU负载使用率超过阈值 本章节适用于MRS 3.3.1及以后版本。 告警解释 系统每30秒周期性检测HetuEngine计算实例的平均CPU负载使用率,当检测到HetuEngine计算实例的CPU负载使用率大于90%时产生该告警。
ALM-45334 Presto Worker4线程数超过阈值 告警解释 系统会检查Presto Coordinator和Worker实例的线程使用情况,默认阈值为1024个。如果Presto Coordinator或Worker的线程数超过阈值,则发出告警。 告警属性 告警ID
OKerberos资源异常(2.x及以前版本) 告警解释 告警模块对Manager中的Kerberos资源的状态进行监控,当Kerberos资源异常时,系统产生此告警。 当Kerberos资源恢复时,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12005 严重 是 告警参数
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 集群已经存在的任务无法运行;集群可接收新的Storm任务,但是无法运行。 可能原因 集群中Supervisor处于异常状态。
ALM-38009 Broker磁盘IO繁忙(适用于MRS 3.1.0之后版本) 告警解释 系统每60秒周期性检测Kafka各个磁盘的IO情况,当检测到某个Broker上的Kafka数据目录磁盘IO超出阈值(默认80%)时,产生该告警。 平滑次数为3,当该磁盘IO低于阈值(默认80%)时,告警恢复。
ALM-38012 Broker的分区数量超过阈值 告警解释 系统每30秒周期性检测Kafka服务每个Broker实例的分区数量。该指标可以在Broker实例监控中查看Partition数目,当检测到某个Broker上的分区数量超过阈值时产生告警。用户可在Manager上选择“运维
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 GC时间超出阈值,会影响JobHistory2x进程运行的性能,甚至造成JobHistory2x进程不可用,
ALM-45325 Presto服务不可用 本章节仅适用于MRS 3.1.5及之后版本。 告警解释 系统每60秒周期性检测Presto服务状态。当Presto服务不可用时产生该告警;当Presto服务恢复时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45325 紧急
ALM-45330 Presto Worker线程数超过阈值 本章节仅适用于MRS 3.1.5及之后版本。 告警解释 系统会检查Presto Coordinator和Worker实例的线程使用情况,默认阈值为1024个。如果Presto Coordinator或Worker的线程数超过阈值,则发出告警。
ERROR表示当前事件处理存在错误信息。 WARN WARN表示当前事件处理存在异常告警信息。 INFO INFO表示记录系统及各事件正常运行状态信息。 DEBUG DEBUG表示记录系统及系统的调试信息。 如果您需要修改日志级别,请执行如下操作: 参考修改集群服务配置参数,进入Yarn服务“全部配置”页面。
RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 磁盘可用率低于阈值的NodeManager节点可能无法提供Yarn服务。 容器减少,集群性能可能下降。 可能原因
INFO INFO表示记录系统及各事件正常运行状态信息。 DEBUG DEBUG表示记录系统及系统的调试信息。 如果您需要修改日志级别,请执行如下操作: 默认情况下配置Spark2x日志级别不需要重启服务。 登录FusionInsight Manager系统。 选择“集群 > 服务