检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
OBS,对于配置冷热分离策略的表无法进行OBS冷数据读写等操作。 可能原因 ClickHouse配置的OBS参数错误。 IAM服务异常。 处理步骤 检查冷热分离相关配置信息是否正确。如果不正确,修改错误配置,重启ClickHouse实例后,等待3分钟后观察告警是否恢复。 是,操作结束。
否:执行9。 重启作业,检查该告警是否恢复。 是,处理完毕。 否,执行9。 联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 不涉及。 父主题: MRS集群告警处理参考
Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务进程响应缓慢或不可用。 可能原因 告警阈值配置或者平滑次数配置不合理。 处理步骤 检查告警阈值配置或者平滑次数配置是否合理。 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称
while.loading 所属配置文件 carbon.properties 适用于 数据加载 场景描述 数据加载过程中,设置处理数据使用的CPU core数量。 如何调优 如果有更多的CPU个数,那么可以增加CPU值来提高性能。例如,将该参数值从2增加到4,那么CSV文件读取性能可以增加大约1倍。
SDK概述 本文介绍了MRS服务提供的SDK语言版本,列举了最新版本SDK的获取地址。 在线生成SDK代码 API Explorer能根据需要动态生成SDK代码功能,降低您使用SDK的难度,推荐使用。 您可以在API Explorer中具体API页面的“代码示例”页签查看对应编程语言类型的SDK代码,如图1所示。
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 内存使用过高,部分查询任务可能因为内存不足而失败。 可能原因 Impalad进程正在执行较大量查询任务。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 阈值设置 > Impala > CPU和内存 > Imp
系统当前指标取值满足自定义的告警设置条件 对系统的影响 查询可能会阻塞甚至失败。 可能原因 该Impalad服务维护的查询数量过多,或者阈值设定的太小。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 阈值设置 > Impala > 查询任务总数统计 > 提交中的查询总数”,检查阈值大小。
OBS服务端出现执行异常或严重超时。 处理步骤 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > meta > OBS的write接口调用失败总数”,将阈值或平滑次数参数的值根据实际情况调大。 观察界面告警是否清除。 是,处理完毕。 否,执行3。 联系OBS运维人员查看OBS服务是否正常。
对系统的影响 导致PolicySync响应缓慢。 可能原因 该节点PolicySync实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45292 Polic
运行状态和日志来确定问题原因,是Flink作业级别的告警,对FlinkServer本身没有影响。 可能原因 失败原因可在具体日志中查看。 处理步骤 使用具有FlinkServer管理操作权限的用户登录Manager。 选择“集群 > 服务 > Yarn”,单击“ResourceManager
影响,将导致主备模式下FlinkServer提交Flink作业功能无法正常使用,双主模式不受影响。 可能原因 用户HA证书文件即将到期。 处理步骤 查看告警信息。 登录FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45654 Flink
可能会导致用户业务数据丢失或者Manager页面数据显示异常。 可能原因 主备节点网络不稳定。 备OMS数据库异常。 备节点磁盘空间满。 处理步骤 检查主备节点网络是否正常。 在FusionInsight Manager界面上选择“运维 > 告警 > 告警”,在告警列表中,单击此
图1 设置告警阈值 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行4。 检查网络是否异常。 联系网络管理员,检查网络是否存在异常。 是,恢复网络故障,执行5。 否,执行6。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行6。 收集故障信息。 在主集群的FusionInsight
对系统的影响 业务失败:文件系统无法正常写入时,如果需要修改或使用该磁盘上的数据,可能会导致作业运行失败。 可能原因 磁盘写入的小文件过多。 处理步骤 磁盘写入的小文件过多。 打开FusionInsight Manager页面,选择“运维 > 告警 > 告警”,单击此告警所在行的,获取告警所在主机地址和磁盘分区。
否,执行11。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行12。 检查系统环境是否异常。 联系操作系统管理员,检查操作系统是否存在异常。 是,恢复操作系统故障,执行13。 否,执行14。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行14。 收集故障信息。 在主集群的FusionInsight
否,请联系运维人员进行处理。 等待5分钟后,在Manager页面选择“运维 > 告警 > 告警”页签,查看该告警是否清除。 是,处理完毕。 否,请联系运维人员进行处理。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 不涉及。 父主题: MRS集群告警处理参考
甚至造成内存溢出导致Hive服务不可用。 可能原因 该节点Hive实例直接内存使用量过大,或分配的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“告警ID”为“160
er”。 是,执行3。 否,执行5。 参考ALM-12007 进程故障的处理步骤处理该故障。 在告警列表中,查看“ALM-16047 HiveServer已从Zookeeper注销”告警是否清除。 是,处理完毕。 否,执行5。 检查Hive相关配置修改是否正确。 在FusionInsight
Tez或者Spark库路径不存在,会影响Hive on Tez,Hive on Spark功能。 可能原因 Tez或者Spark在HDFS上库路径被删除。 处理步骤 检查Tez和Spark库路径。 以root用户登录客户端所在节点,用户密码为安装前用户自定义,请咨询系统管理员。 执行以下命令,检查
KrbServer服务不可用”告警产生。 是,执行4。 否,执行5。 参考ALM-25500 KrbServer服务不可用的处理步骤处理故障后,检查本告警是否恢复。 是,处理完毕。 否,执行5。 检查Zookeeper服务状态。 在FusionInsight Manager的告警列表中,查看是否有“ALM-13000