检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
新失败。 历史作业信息的老化未根据任务结束时间进行老化。 用户添加成功后首次作业管理提交作业时显示MRS Manager中用户不存在。 全链路在DLF上的Spark/DWS作业For Each算子监控数据展示缺失。 MRS实时任务告警通知需显示具体作业名称。 Flink Jar作业实际失败了后作业状态却刷新为成功。
集群管理类 如何查看所有MRS集群? 如何查看MRS服务的操作日志信息? 如何查看MRS集群配置信息? 如何在MRS集群中手动添加组件? 如何取消MRS集群风险告警的消息通知? 为什么MRS集群显示的资源池内存小于实际集群内存? MRS集群安装的Python版本是多少? 如何上传本地文件到集群内节点?
如何解决Kafka topic无法删除的问题 问题 删除Kafka topic后发现未成功删除,如何正常删除? 回答 可能原因一:配置项“delete.topic.enable”未配置为“true”,只有配置为“true”才能执行真正删除。 可能原因二:“auto.create.topics
如何让不同的业务程序分别用不同的Yarn队列? 问: 如何让不同的业务程序分别用不同的Yarn队列? 答: 在Manager页面上创建一个新的租户,然后将不同的集群业务用户绑定至不同的租户。 操作步骤 登录FusionInsight Manager,单击“租户资源”。 在左侧租户
如何解决Kafka Topic无法删除的问题 问题 删除Kafka Topic后发现未成功删除,如何正常删除? 回答 可能原因一:配置项“delete.topic.enable”未配置为“true”,只有配置为“true”才能执行真正删除。 可能原因二:“auto.create.topics
否,执行4。 等待30秒,查看告警是否恢复。 是,处理完毕。 否,执行4。 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
是,执行3。 否,执行5。 参考“ALM-12033 慢盘故障”或“ALM-12063 磁盘不可用”的处理步骤处理该故障。 等待几分钟后,在告警列表中查看该告警是否清除。 是,处理完毕。 否,执行5。 检查RegionServer GC是否异常。 在FusionInsight Ma
对系统的影响 导致Flume数据传输效率低下。 可能原因 该节点Flume实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > Flume进程垃圾回收(GC)
能导致业务无法正常访问OBS。 可能原因 节点TokenServer实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45738 To
产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 已创建的用户在本节点无操作权限。 可能原因 扩容过程中已有节点停止或故障。 处理步骤 在FusionInsight Manager首页,选择“集群 > 服务 > ClickHouse > 实例”。 查看是否有停止、退服或故障的实例。
异常的文件路径或者名称。 对系统的影响 导致系统功能不可用。 可能原因 用户手动修改了文件权限、用户和用户组等信息或者系统异常下电等原因。 处理步骤 检查异常文件权限。 登录MRS集群详情页面,选择“告警管理”。 查看该告警的详细信息,查看定位信息中对应的“HostName”字段值
x及以前版本)对ZooKeeper服务状态异常进行处理,然后查看ZooKeeper服务的健康状态是否恢复为“良好”。 是,执行1.c。 否,执行3。 等待5分钟后,在“告警管理”页面,查看本告警是否恢复。 是,处理完毕。 否,执行2.a。 处理NameService服务异常告警。 登录M
是,执行2.d。 否,执行3。 参考ALM-12007 进程故障(2.x及以前版本)的处理步骤处理该故障。 在告警列表中,查看“ALM-16004 Hive服务不可用”告警是否清除。 是,处理完毕。 否,执行3。 检查HDFS服务状态。 登录MRS集群详情页面,选择“告警管理”。
Source故障,导致数据无法发送。 网络故障,导致数据无法发送。 处理步骤 检查Flume Source是否故障。 确认Flume Source是否是spooldir类型。 是,执行1.b。 否,执行1.c。 查看设置的spoolDir目录,是否所有的文件均已传输完毕。 是,处理完毕。 否,执行1.e。 确认Flume
HDFS服务不可用”告警产生,服务列表中HDFS服务是否已停止。 是,如果有告警参考ALM-14000 HDFS服务不可用(2.x及以前版本)的处理步骤处理该故障;如果HDFS服务已停止,启动HDFS服务,执行1.g。 否,执行1.g。 确认Flume Sink是否是HBase类型。 是,执行1
是,执行2。 否,执行4。 参考ALM-14001 HDFS磁盘空间使用率超过阈值进行处理,查看对应告警是否清除。 是,执行3。 否,执行11。 在“运维 > 告警 > 告警”页面查看本告警是否清除。 是,处理完毕。 否,执行4。 检查DataNode节点平衡状态。 在FusionInsight
否,执行9。 分别参考ALM-12006 节点故障、ALM-12007 进程故障、ALM-14002 DataNode磁盘空间使用率超过阈值的处理步骤处理告警。 查看本告警是否恢复。 是,操作结束。 否,执行9。 收集故障信息。 在FusionInsight Manager首页,选择“运维
可能原因 该节点Mapreduce JobHistoryServer实例堆内存使用量过大,或分配的堆内存不合理,导致使用量超过阈值。 处理步骤 检查内存使用量。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > MapReduce JobH
ver进程正常提供服务。 可能原因 该节点JobHistoryServer实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-18012 JobHi
ResourceManager堆内存使用率超过阈值”。 是,查看“ALM-18008 ResourceManager堆内存使用率超过阈值”进行处理。 否,执行8。 观察界面告警是否清除。 是,处理完毕。 否,执行9。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。