检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GC时间超出阈值,会影响IndexServer2x进程运行的性能,甚至造成IndexServer2x进程不可用,开启索引服务的Carbon业务执行变慢或失败。 可能原因 该节点IndexServer2x进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间 在FusionInsight
HostName 产生告警的主机名。 对系统的影响 Worker进程GC时间过长,会影响Worker进程运行的性能,甚至造成Worker进程不可用。 可能原因 该节点Worker进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 登录MRS集群详情页面,选择“告警管理”。
对系统的影响 JobHistory2x进程堆内存使用率过高,会影响JobHistory2x进程运行的性能,甚至造成内存溢出导致JobHistory2x进程不可用,进程不可用时仅会造成无法查询Spark任务历史执行记录。 可能原因 该节点JobHistory2x进程堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。
HostName 产生告警的主机名。 对系统的影响 JobHistory进程非堆内存使用率过高,会影响JobHistory进程运行的性能,甚至造成内存溢出导致JobHistory进程不可用。 可能原因 该节点JobHistory进程非堆内存使用率过大,或配置的非堆内存不合理,导致使用率超过阈值。
HostName 产生告警的主机名。 对系统的影响 JobHistory进程堆内存使用率过高,会影响JobHistory进程运行的性能,甚至造成内存溢出导致JobHistory进程不可用。 可能原因 该节点JobHistory进程堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。 处理步骤
Kafka”,查看当前Kafka状态,发现状态为良好,且监控指标内容显示正确。 FusionInsight Manager界面操作:登录FusionInsight Manager,选择“集群 > 服务 > Kafka”,查看当前Kafka状态,发现状态为良好,且监控指标内容显示正确。 查看SparkS
JobHistory2x进程非堆内存使用率过高,会影响JobHistory2x进程运行的性能,甚至造成内存溢出导致JobHistory2x进程不可用, 进程不可用时仅会造成无法查询Spark任务历史执行记录。 可能原因 该节点JobHistory2x进程非堆内存使用率过大,或配置的非堆内存不合理,导致使用率超过阈值。
ALM-12005 OKerberos资源异常 告警解释 告警模块对Manager中的Kerberos资源的状态按80秒周期进行监控,当连续6次监控到Kerberos资源异常时,系统产生此告警。 当Kerberos资源恢复时,且告警处理完成时,告警恢复。 MRS 3.3.1及之后
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Worker1进程GC时间过长,会影响Worker1进程运行的性能,甚至造成Worker1进程不可用。 可能原因 该节点Worker1进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Worker2进程GC时间过长,会影响Worker2进程运行的性能,甚至造成Worker2进程不可用。 可能原因 该节点Worker2进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight
如果服务右侧显示则表示该服务配置已过期。 监控状态报表: 主页界面的右侧为图表区,包含关键监控状态的报表,例如集群中所有主机的状态、主机CPU使用率、主机内存使用率等。用户可以自定义在图表区展示的监控报表,请参考查看MRS集群资源监控指标。 监控图表的数据来源可在图表的左下方查看,每个监控报表可以放大查看具体数值,也可以关闭不再显示。
ALM-18012 JobHistoryServer进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测JobHistoryServer进程的垃圾回收(GC)占用时间,当检测到JobHistoryServer进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。
对系统的影响 IndexServer2x进程堆内存使用率过高,会影响IndexServer2x进程运行的性能,甚至造成内存溢出导致IndexServer2x进程不可用,开启索引服务的Carbon业务执行变慢或失败。 可能原因 该节点IndexServer2x进程堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。
对系统的影响 IndexServer2x进程直接内存使用率过高,会影响IndexServer2x进程运行的性能,甚至造成内存溢出导致IndexServer2x进程不可用,开启索引服务的Carbon业务执行变慢或失败。 可能原因 该节点IndexServer2x进程直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。
GC次数超出阈值,会影响IndexServer2x进程运行的性能,甚至造成IndexServer2x进程不可用,开启索引服务的Carbon业务执行变慢或失败。 可能原因 该节点IndexServer2x进程堆内存使用率过大,或配置的堆内存不合理,导致进程Full GC频繁。 处理步骤 检查Full
系统每30秒周期性检测每个HBase服务实例中每个RegionServer的Region数。该指标可以在HBase服务监控界面和RegionServer角色监控界面查看,当检测到某个RegionServer上的Region数超出阈值(默认连续20次超过默认阈值2000)时产生该告警。用户可通过“运维
各个关键监控指标报表。 用户可以单击右上角的“ > 定制”,自定义在图表区展示的监控报表。选择时间区间后,单击“ > 导出”,可以导出指定时间区间内的详细监控指标数据。 单击监控指标标题后的可以打开监控指标的解释说明。 查看主机图表,进程和资源信息。 单击“图表”,“进程”和“资
检查Flume Client端进程故障。 登录告警定位参数中描述的Flume ClientIP所在主机,执行以下命令切换root用户。 sudo su - root 执行ps -ef|grep flume |grep client命令,查看是否存在Flume Client进程。 是,执行3.a。
系统当前指标取值满足自定义的告警设置条件 对系统的影响 Worker3进程GC时间过长,会影响Worker3进程运行的性能,甚至造成Worker3进程不可用。 可能原因 该节点Worker3进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight
GC时间超出阈值,会影响JDBCServer2x进程运行的性能,甚至造成JDBCServer2x进程不可用,Spark JDBC任务执行变慢或失败。 可能原因 该节点JDBCServer2x进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间 在FusionInsight