正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Direct Kafka接口数据传输 需要注意的是,Spark Streaming可以在失败后重新从Kafka中读取并处理数据段。然而,由于语义仅被处理一次,重新处理的结果和没有失败处理的结果是一致的。 因此,Direct API消除了需要使用WAL和Receivers的情况,且确保每个Ka
网络故障,导致数据无法发送。 处理步骤 以root用户登录故障节点所在主机,执行ping Doris所有节点的IP地址命令查看对端主机是否可以ping通。 是,执行4。 否,执行2。 联系网络管理员恢复网络。 等待一段时间后,在告警列表中,查看告警是否清除。 是,处理完毕。 否,执行4。 收集故障信息。
arbon业务执行变慢或失败。 可能原因 该节点IndexServer2x进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“ID”为“43022”的告警
资源组排队数超过该组最大排队数(maxQueued)时,会导致新的任务无法执行。 可能原因 资源组配置不合理或该资源组下提交的任务过多。 处理步骤 用户可通过“组件管理 > Presto > 服务配置(将“基础配置”切换为“全部配置”) >Presto > resource-groups”调整资源组的配置。
运行的性能,甚至造成Worker进程不可用。 可能原因 该节点Worker进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 登录MRS集群详情页面,选择“告警管理”。 选中“告警ID”为“44006”的告警,查看“定位信息”中的角色名并确定实例的IP地址。
OBS数据写操作接口调用成功率小于阈值,会影响上层大数据计算业务的正常执行,导致某些计算任务的执行失败。 可能原因 OBS服务端出现执行异常或严重超时。 处理步骤 检查堆内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > OBS数据写操作接口调用成
对系统的影响 堆内存溢出可能导致服务崩溃。 可能原因 该节点UserSync实例堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45281 UserSync堆内存使用
运行的性能,甚至造成Worker进程不可用。 可能原因 该节点Worker进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,单击“运维 > 告警 > 告警”,选中“告警ID”为“45328”
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 查询分布式表失败。 可能原因 扩容过程中已有节点停止或故障。 处理步骤 在FusionInsight Manager首页,选择“集群 > 服务 > ClickHouse > 实例”。 查看是否有停止、退服或故障的实例。
NodeManager节点本地目录omm用户无访问权限。 处理步骤 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
(例如Yarn、Flink、Spark等)的业务异常。 可能原因 往ZooKeeper数据目录空间写入大量数据。 自定义阈值设置不合理。 处理步骤 检查告警目录是否写入大量数据 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,单击告警“ALM-13010
JobHistoryServer堆内存使用率超过阈值”。 是,查看“ALM-18009 JobHistoryServer堆内存使用率超过阈值”进行处理。 否,执行8。 观察界面告警是否清除。 是,处理完毕。 否,执行9。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
如果告警名称为“ALM-38009 Broker磁盘IO繁忙”,请参考ALM-38009 Broker磁盘IO繁忙(适用于MRS 3.1.0之后版本)进行处理。 告警解释 系统每60秒周期性检测Kafka各个Topic的过载情况,当检测到某个Topic在过载磁盘上的Partition数占比超出阈值(默认40%)时,产生该告警。
进程不可用时仅会造成无法查询Spark任务历史执行记录。 可能原因 该节点JobHistory2x进程直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“ID”为“43008”
产生告警的角色名称。 HostName 产生告警的主机名 对系统的影响 无 可能原因 Presto实例线程数量过大。 Presto并发执行的任务过多。 处理步骤 检查任务并发量 检查当前集群CPU负载是否正常,SQL并发量是否符合预期。 是,执行2。 否,执行4。 调整线程数告警触发阈值。 在FusionInsight
产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 无 可能原因 Presto实例线程数量过大。 Presto并发执行的任务过多。 处理步骤 检查当前集群CPU负载是否正常,SQL并发量是否符合预期。 是,执行2。 否,执行4。 调整线程数告警触发阈值。 在FusionInsight
PathName 异常的文件路径或者名称。 对系统的影响 导致文件所属服务功能不正常。 可能原因 用户手动修改了文件配置或者系统异常下电等原因。 处理步骤 检查异常文件配置。 登录MRS集群详情页面,选择“告警管理”。 查看该告警的详细信息,查看定位信息中对应的“HostName”字段值
进程无法正常提供数据读写服务。 可能原因 节点IoTDBServer实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,弹出告警页面,选中“告警I
ZooKeeper服务不可用”告警产生。 是,执行1.d。 否,执行2.a。 参考ALM-13000 ZooKeeper服务不可用的处理步骤处理该故障。 等待几分钟后检查本告警是否恢复。 是,处理完毕。 否,执行2.a。 检查HDFS服务状态。 在告警列表中,查看是否有“ALM-14000 HDFS服务不可用”告警产生。
重启服务”,单击“确定”。 检查该告警是否恢复。 是,处理完毕。 否,执行20。 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考