检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
servers:Kafkabrokers列表,多个用英文逗号分隔。默认情况下,安全集群端口21007,普通集群对应端口9092。 client.sinks.kafka_sink.kafka.security.protocol:安全集群为SASL_PLAINTEXT,普通集群为PLAINTEXT。
executor进程会内存溢出 支持提交作业,manager executor可配置并发度功能 MRS manager管理面看不到Kafka新建的topic 安全集群API方式提交Spark Submit作业操作HBase表,HBase表权限控制未生效 MRS manager补丁机制优化 MRS大数据组件
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 新数据写入失败,任务中断。 可能原因 集群磁盘容量已满。 BE节点间数据倾斜。 处理步骤 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,查看当前告警“定位信息”中的角色名并确认主机名所在的IP地址。
可能原因 请求OBS接口频率太高。 处理步骤 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > meta > OBS操作被流控总数”,将阈值或平滑次数参数的值根据实际情况调大。 观察界面告警是否清除。 是,处理完毕。 否,执行3。 联系OBS运维人员查看OBS服务是否正常。
安装或扩容过程中,实例数或分配方式不能满足拓扑要求。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,找到本告警,根据告警中的“定位信息”和“附加信息”分析告警原因。 参考下表,根据告警附加信息说明和处理方式进行处理。 告警附加信息 说明 处理方式 n ClickHouseServer
产生告警的磁盘路径 对系统的影响 磁盘使用率高可能导致ClickHouse写入执行失败。 可能原因 ClickHouseServer节点磁盘容量过小。 处理步骤 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,查看当前告警“定位信息”中的角色名以及确认主机名所在的IP地址。
查看告警信息里的主机名是否和1主机名一致。 是,执行4。 否,执行6。 按“ALM-12006 节点故障”提供的步骤处理该告警。 在告警列表中查看“LdapServer服务不可用”告警是否清除。 是,处理完毕。 否,执行10。 检查LdapServer进程是否正常。 选择“运维 > 告警 > 告警”
主备节点网络不稳定。 备DBService异常。 备节点磁盘空间满。 主DBService节点GaussDB进程CPU使用率高(需要通过日志定位该问题)。 处理步骤 检查主备节点网络是否正常。 在FusionInsight Manager页面,选择“集群 > 服务 > DBService > 实例
系统当前指标取值满足自定义的告警设置条件 对系统的影响 查询可能会阻塞甚至失败。 可能原因 该Impalad服务维护的查询数量过多,或者阈值设定的太小。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 阈值设置 > Impala > 查询任务总数统计 > 等待中的查询总数”,检查阈值大小。
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 内存使用过高,部分查询任务可能因为内存不足而失败。 可能原因 该节点实例内存使用率过大,或配置的内存不合理。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 阈值设置 > Impala > CPU和内存 > Cat
业级别的告警,对FlinkServer本身没有影响。 可能原因 FlinkServer作业Task持续背压的具体原因可在具体日志中查看。 处理步骤 使用具有FlinkServer管理操作权限的用户登录Manager。 选择“集群 > 服务 > Yarn”,单击“ResourceManager
推荐2-10 否:执行9。 重启作业,检查告警是否恢复。 是,处理完毕。 否,执行9。 联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 不涉及。 父主题: MRS集群告警处理参考
ALM-16004 Hive服务不可用 是,执行3。 否,执行4。 根据对应服务不可用告警帮助提供的故障处理对应告警。 告警全部恢复后,等待几分钟,检查本告警是否恢复。 是,处理完毕。 否,执行4。 检查NameNode节点内存是否不足。 检查NameNode节点内存,查看是否有节点存在内存不足的问题。
该告警产生原因可能是执行恢复任务前组件状态不满足要求或执行恢复任务中某个步骤出错,执行恢复任务中出错依赖于该任务的详细情况,可以获取日志和任务详情来处理该告警。 处理步骤 查看组件状态 在FusionInsight Manager管理界面,选择“集群 > 待操作集群的名称 > 服务”,查看组件当前
图1 设置告警阈值 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行8。 检查网络是否异常。 联系网络管理员,检查网络是否存在异常。 是,恢复网络故障,执行9。 否,执行10。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行10。 收集故障信息。 在主集群的FusionInsight
图1 设置告警阈值 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行4。 检查网络是否异常。 联系网络管理员,检查网络是否存在异常。 是,恢复网络故障,执行5。 否,执行6。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行6。 收集故障信息。 在主集群的FusionInsight
实例”,在实例页面,重新部署或调整该角色实例。 等待10分钟,检查该告警是否恢复。 是,处理完毕。 否,请联系运维人员。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。 父主题: MRS集群告警处理参考
DataNode数据目录创建失败。 DataNode数据目录与系统关键目录(“/”或“/boot”)使用同一磁盘。 DataNode数据目录中多个目录使用同一磁盘。 处理步骤 查看告警原因和产生告警的DataNode节点信息。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,在告警列表中单击此告警。
主NameNode的业务IP:/tmp 是,执行24。 否,执行23。 联系MRS集群管理员,处理在omm用户下备NameNode无法推送数据到主NameNode的原因。故障恢复后等待1个NameNode合并元数据的周期时间,查看告警是否清除。 是,处理完毕。 否,执行24。 查看主NameNode数据目录空间是否不足。
堆内存溢出可能导致服务崩溃,服务崩溃后无法使用Oozie服务调度任务。 可能原因 该节点Oozie实例堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。 处理步骤 检查堆内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > Oozie堆内存使用率超过