正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 内存使用过高,部分查询任务可能因为内存不足而失败。 可能原因 该节点实例内存使用率过大,或配置的内存不合理。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 阈值设置 > Impala > CPU和内存 > Cat
ALM-16004 Hive服务不可用 是,执行3。 否,执行4。 根据对应服务不可用告警帮助提供的故障处理对应告警。 告警全部恢复后,等待几分钟,检查本告警是否恢复。 是,处理完毕。 否,执行4。 检查NameNode节点内存是否不足。 检查NameNode节点内存,查看是否有节点存在内存不足的问题。
业级别的告警,对FlinkServer本身没有影响。 可能原因 FlinkServer作业Task持续背压的具体原因可在具体日志中查看。 处理步骤 使用具有FlinkServer管理操作权限的用户登录Manager。 选择“集群 > 服务 > Yarn”,单击“ResourceManager
如何通过Yarn WebUI查看Hive作业对应的SQL语句? 以业务用户登录FusionInsight Manager。 选择“集群 > 服务 > Yarn”,单击“ResourceManager WebUI”后的“ResourceManager(xxx,主) ”超链接,进入Yarn
如何给集群内用户添加租户管理权限? 分析集群和混合集群支持添加租户管理权限,流式集群不支持添加租户管理权限。给新建账号添加租户管理权限方法如下: MRS 3.x之前版本: 登录MRS Manager。 在“系统设置 > 用户管理”中选择新建的用户,单击“操作”列中的“修改”。 在
图1 设置告警阈值 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行4。 检查网络是否异常。 联系网络管理员,检查网络是否存在异常。 是,恢复网络故障,执行5。 否,执行6。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行6。 收集故障信息。 在主集群的FusionInsight
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 主机上业务无法发起对外建立连接,业务中断。 可能原因 临时端口不满足当前业务需求。 系统环境异常。 处理步骤 扩大临时端口范围。 打开FusionInsight Manager页面,在实时告警列表中,单击此告警所在行的,获取告警所在主机IP地址。
严重时会导致集群节点Agent或者OMS进程运行异常,导致组件作业提交、OMS数据同步等失败。 可能原因 OMS配置同集群规模不匹配。 处理步骤 检查OMS配置同集群规模是否匹配。 打开FusionInsight Manager页面,在告警列表中,单击此告警所在行的,查看该告警的主机地址。
目录继续写入文件。一旦超过该目录分配的最大存储空间,则HDFS写入数据会失败。 可能原因 告警阈值配置不合理。 租户分配的空间容量不合理 处理步骤 查看阈值设置是否合理 查看告警定位信息,获取上报告警的租户名称,租户目录。 在FusiongInsight Manager首页,在“
入文件。一旦超过该目录分配的最大文件对象个数,则HDFS写入数据会失败。 可能原因 告警阈值配置不合理。 租户分配的文件目录数上限不合理 处理步骤 查看阈值设置是否合理 查看告警定位信息,获取上报告警的租户名称,租户目录。 在FusiongInsight Manager首页,单击
导致Oozie调度任务响应变慢直至服务不可用。 可能原因 该节点Oozie实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > Oozie进程垃圾回收(GC)
进程故障”告警是否已清除。 是,处理完毕。 否,执行2.a。 检查磁盘空间是否不足。 打开MRS集群详情页面,在告警管理页签的告警列表中,查看是否有“ALM-12017 磁盘容量不足”告警产生。 是,执行2.b。 否,执行3。 按ALM-12017 磁盘容量不足(2.x及以前版本)提供的步骤处理该故障。
溃,影响该Broker正常提供读写服务。 可能原因 该节点Kafka实例堆内存使用率过大,或配置的堆内存大小不合理,导致使用率超过阈值。 处理步骤 检查Kafka实例堆内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > Kafka堆内存使用率超过阈值
OBS服务端出现执行异常或严重超时。 处理步骤 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > meta > OBS的readFully接口调用失败总数”,将阈值或平滑次数参数的值根据实际情况调大。 观察界面告警是否清除。 是,处理完毕。 否,执行3 联系OBS运维人员查看OBS服务是否正常。
OBS服务端出现执行异常或严重超时。 处理步骤 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > meta > OBS的read接口调用失败总数”,将阈值或平滑次数参数的值根据实际情况调大。 观察界面告警是否清除。 是,处理完毕。 否,执行3。 联系OBS运维人员查看OBS服务是否正常。
导致RangerAdmin响应缓慢。 可能原因 该节点RangerAdmin实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45280 Range
对系统的影响 导致TagSync响应缓慢。 可能原因 该节点TagSync实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45288 TagSy
产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 无 可能原因 Presto实例线程数量过大。 Presto并发执行的任务过多。 处理步骤 检查任务并发量 检查当前集群CPU负载是否正常,SQL并发量是否符合预期。 是,执行2。 否,执行4。 调整线程数告警触发阈值。 在FusionInsight
图1 设置告警阈值 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行4。 检查网络是否异常。 联系网络管理员,检查网络是否存在异常。 是,恢复网络故障,执行5。 否,执行6。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行6。 收集故障信息。 在主集群的FusionInsight
对系统的影响 业务失败:文件系统无法正常写入时,如果需要修改或使用该磁盘上的数据,可能会导致作业运行失败。 可能原因 磁盘写入的小文件过多。 处理步骤 磁盘写入的小文件过多。 打开FusionInsight Manager页面,选择“运维 > 告警 > 告警”,单击此告警所在行的,获取告警所在主机地址和磁盘分区。