检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 可能导致查询或写入延迟。 可能原因 集群业务并发量较大或compaction队列设置较小。 处理步骤 检查告警阈值配置或者平滑次数配置是否合理。 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称
际情况调大。 观察界面告警是否清除。 是,处理完毕。 否,执行2。 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
MonitorServer证书文件已经非法或损坏,功能受限,Flume客户端将无法访问Flume服务端。 可能原因 MonitorServer证书文件非法或损坏。 处理步骤 查看告警信息。 登录FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-24013 MonitorServer证书文件非法或已损坏
进程不可用时仅会造成无法查询Spark任务历史执行记录。 可能原因 该节点JobHistory2x进程非堆内存使用率过大,或配置的非堆内存不合理,导致使用率超过阈值。 处理步骤 检查非堆内存使用率 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“ID”为“43007”
“-Xmx”的值默认2G。 如果该告警偶然发生,参数值按照0.5倍速率调大。如果该告警频繁发生,参数值按照1倍速率调大。 多业务量、高并发的情况可以考虑扩容实例。 观察界面告警是否清除。 是,处理完毕。 否,执行5。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志
参考ALM-45646 RocksDB的Pending Compaction持续超过阈值章节处理对应的告警。 ALM-45646告警全部恢复后,等待几分钟,检查本告警是否恢复。 是,处理完毕。 否,执行5。 检查是否RocksDB的Compaction压力过大并伴随ALM-45647告警
是,执行7。 否,执行9。 按照“ALM-45737 TokenServer堆内存使用率超过阈值”的处理步骤处理该故障。 等待10分钟,查看该告警是否自动消除。 是,处理完毕。 否,执行9。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志
等待2分钟,查看告警列表中,该告警是否已清除。 是,处理完毕。 否,执行2 重新设置转储规则。 在MRS Manager界面,单击“系统设置 > 审计日志转储配置”。 重新设置转储规则,填入正确的参数,单击“确定”。 2分钟后,查看告警列表中,该告警是否已清除。 是,处理完毕。 否,执行3 收集故障信息。
拔出磁盘后系统会上报“ALM-12014 分区丢失”告警,参考ALM-12014 设备分区丢失(2.x及以前版本)进行处理,处理完成后,本告警即可自动消除。 参考信息 无。 父主题: MRS集群告警处理参考
该告警产生原因可能是执行恢复任务前组件状态不满足要求或执行恢复任务中某个步骤出错,执行恢复任务中出错依赖于该任务的详细情况,可以获取日志和任务详情来处理该告警。 处理步骤 查看组件状态 在MRS Manager管理界面,选择“服务管理”,查看组件当前的运行状态是否满足要求(OMS、DBServic
HDFS DataNode内存使用率超过阈值(2.x及以前版本)的处理步骤,对该异常告警进行处理,查看是否消除该告警。 是,执行3.c。 否,执行4.a。 等待5分钟后,在告警列表中查看本告警是否恢复。 是,处理完毕。 否,执行4.a。 查看NameNode是否负荷过高。 在MR
Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 可能导致任务堆积,无法及时处理。 可能原因 集群运算能力低于任务提交速率,导致任务提交后无法及时运行处理。 处理步骤 检查Yarn页面的内存和vcore使用情况。 查看Yarn原生页面的Memory Used|Memory
是,执行1.f。 否,执行2.a。 参考ALM-12007 进程故障(2.x及以前版本)的处理步骤处理该故障。 在告警列表中,查看“ALM-23001 Loader服务不可用”告警是否清除。 是,处理完毕。 否,执行2.a。 检查HDFS服务状态。 登录MRS集群详情页面,选择“告警管理”。
executor内存不足导致查询性能下降 现象描述 在不同的查询周期内运行查询功能,查询性能会有起伏。 可能原因 在处理数据加载时,为每个executor程序实例配置的内存不足,可能会产生更多的Java GC(垃圾收集)。当GC发生时,会发现查询性能下降。 定位思路 在Spark
快速开发Spark应用 Spark是分布式批处理框架,提供分析挖掘与迭代式内存计算能力,支持多种语言的应用开发。 通常适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算(Iterative Computation):
对系统的影响 直接内存溢出可能导致服务崩溃。 可能原因 节点UserSync实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45282 Us
能导致业务无法正常访问OBS。 可能原因 节点TokenServer实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45738 To
产生告警的主机名 对系统的影响 用户执行提交作业失败。例如:通过REST接口提交作业可能失败。 可能原因 该节点JobServer实例存在异常。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > JobServer提交作业接口失败率 > 定位
产生告警的主机名 对系统的影响 用户执行终止作业失败。例如:通过REST接口终止作业可能失败。 可能原因 该节点JobServer实例存在异常。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > JobServer提交作业接口失败率 > 定位
提升网口速率。 检查该告警是否恢复。 是,处理完毕。 否,执行9 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考