检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
系统当前指标取值满足自定义的告警设置条件 对系统的影响 Worker3进程GC时间过长,会影响Worker3进程运行的性能,甚至造成Worker3进程不可用。 可能原因 该节点Worker3进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight
GC时间超出阈值,会影响JDBCServer2x进程运行的性能,甚至造成JDBCServer2x进程不可用,Spark JDBC任务执行变慢或失败。 可能原因 该节点JDBCServer2x进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间 在FusionInsight
HDFS性能差导致HBase服务不可用告警 问题现象 HBase组件不断上报服务不可用告警。 原因分析 该问题多半为HDFS性能较慢,导致健康检查超时,从而导致监控告警。可通过以下方式判断: 首先查看HMaster日志(“/var/log/Bigdata/hbase/hm/hbase-omm-xxx.
HostName 产生告警的主机名。 对系统的影响 JDBCServer进程直接内存使用率过高,会影响JDBCServer进程运行的性能,甚至造成内存溢出导致JDBCServer进程不可用。 可能原因 该节点JDBCServer进程直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。
否,执行11。 检查Flume Client端进程故障。 以root用户登录到告警定位参数中描述的Flume ClientIP所在主机。 执行ps -ef|grep flume |grep client命令,查看是否存在Flume Client进程。 是,执行5。 否,执行11。 检查Flume
GC次数超出阈值,会影响JDBCServer2x进程运行的性能,甚至造成JDBCServer2x进程不可用,Spark JDBC任务执行变慢或失败。 可能原因 该节点JDBCServer2x进程堆内存使用率过大,或配置的堆内存不合理,导致进程Full GC频繁。 处理步骤 检查Full
HostName 产生告警的主机名。 对系统的影响 JDBCServer进程堆内存使用率过高,会影响JDBCServer进程运行的性能,甚至造成内存溢出导致JDBCServer进程不可用。 可能原因 该节点JDBCServer进程堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。 处理步骤
HostName 产生告警的主机名。 对系统的影响 JDBCServer进程非堆内存使用率过高,会影响JDBCServer进程运行的性能,甚至造成内存溢出导致JDBCServer进程不可用。 可能原因 该节点JDBCServer进程非堆内存使用率过大,或配置的非堆内存不合理,导致使用率超过阈值。
HostName 产生告警的主机名。 对系统的影响 Worker进程GC时间过长,会影响Worker进程运行的性能,甚至造成Worker进程不可用。 可能原因 该节点Worker进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 登录MRS集群详情页面,选择“告警管理”。
对系统的影响 JDBCServer2x进程堆内存使用率过高,会影响JDBCServer2x进程运行的性能,甚至造成内存溢出导致JDBCServer2x进程不可用,Spark JDBC任务执行变慢或失败。 可能原因 该节点JDBCServer2x进程堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。
对系统的影响 JDBCServer2x进程直接内存使用率过高,会影响JDBCServer2x进程运行的性能,甚至造成内存溢出导致JDBCServer2x进程不可用,Spark JDBC任务执行变慢或失败。 可能原因 该节点JDBCServer2x进程直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。
对系统的影响 JDBCServer2x进程非堆内存使用率过高,会影响JDBCServer2x进程运行的性能,甚至造成内存溢出导致JDBCServer2x进程不可用,Spark JDBC任务执行变慢或失败。 可能原因 该节点JDBCServer2x进程非堆内存使用率过大,或配置的非堆内存不合理,导致使用率超过阈值。
Manager关键特性 Manager关键特性:统一监控告警 Manager提供可视化、便捷的监控告警功能。用户可以快速获取集群关键性能指标,并评测集群健康状态,同时提供性能指标的定制化显示功能及指标转换告警方法。Manager可监控所有组件的运行情况,并在故障时实时上报告警。通过界
反馈操作的信息。 进程启动日志 记录进程启动过程中执行的命令信息。 进程启动异常日志 记录进程启动失败时产生异常的信息,如依赖服务错误、资源不足等 进程运行日志 记录进程运行信息及调试信息,如函数入口和出口打印、模块间接口消息等。 进程运行异常日志 记录导致进程运行时错误的错误信息,如输入对象为空、编解码失败等错误。
的审计日志。 PMS 性能监控模块,搜集每一个OMA上的性能监控数据并提供查询。 CEP 汇聚功能模块。比如将所有OMA上的磁盘已用空间汇总成一个性能指标。 FMS 告警模块,收集每一个OMA上的告警并提供查询。 OMM Agent OMA上面性能监控和告警的Agent,负责收集该Agent
主机名 产生告警的主机名。 对系统的影响 IoTDBServer进程堆内存使用率过高,会导致IoTDBServer进程数据读写性能下降,甚至造成内存溢出导致IoTDBServer进程重启。 可能原因 该节点IoTDB进程堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。 处理步骤
通过top命令获取RegionServer的进程使用CPU情况信息,查看CPU使用率高的进程号。 根据RegionServer的进程编号,获取该进程下线程使用CPU情况。 top -H -p <PID>(根据实际RegionServer的进程ID进行替换),具体如下图所示,发现部分线程CPU使用率均达到80%。
ALM-24005 Flume传输数据异常(2.x及以前版本) 告警解释 告警模块对Flume Channel的容量状态进行监控,当Channel满的时长超过阈值,或Source向Channel放数据失败的次数超过阈值后,系统发送告警。 用户可通过配置修改阈值:修改对应chann
x B x C > D ,HDFS总存储空间可在HDFS NameNode页面查看,Hive已经使用HDFS的空间大小可在Hive的监控界面查看监控指标“Hive已经使用的HDFS空间大小”。 检查该告警是否恢复。 是,操作结束。 否,执行3。 对系统进行扩容。 对系统进行扩容。
ConfigNode堆内存使用率超过阈值 告警解释 系统每60秒周期性检测ConfigNode进程堆内存使用状态,当检测到ConfigNode进程堆内存使用率超出阈值(最大内存的90%)时产生该告警。当ConfigNode进程堆内存使用率小于阈值时,告警清除。 告警属性 告警ID 告警级别 是否自动清除