检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
实例”,在实例页面,重新部署或调整该角色实例。 等待10分钟,检查该告警是否恢复。 是,处理完毕。 否,请联系运维人员。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。 父主题: MRS集群告警处理参考
DataNode数据目录创建失败。 DataNode数据目录与系统关键目录(“/”或“/boot”)使用同一磁盘。 DataNode数据目录中多个目录使用同一磁盘。 处理步骤 查看告警原因和产生告警的DataNode节点信息。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,在告警列表中单击此告警。
主NameNode的业务IP:/tmp 是,执行24。 否,执行23。 联系MRS集群管理员,处理在omm用户下备NameNode无法推送数据到主NameNode的原因。故障恢复后等待1个NameNode合并元数据的周期时间,查看告警是否清除。 是,处理完毕。 否,执行24。 查看主NameNode数据目录空间是否不足。
状态和Z状态。或进程可能被挂起进入T状态。 处理步骤 查看进程是否处于D、Z、T状态 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,等待约10分钟后,在告警列表中查看该告警是否自动清除。 是,处理完毕。 否,查看该告警详细信息,记录上报告警的主机IP地址。执行2。
产生告警的主机名。 对系统的影响 HBase服务重启/启动失败,导致所有的HBase业务请求失败。 可能原因 HDFS上的文件或者目录缺失。 处理步骤 检查告警原因 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“告警ID”为“19012”的
业级别的告警,对FlinkServer本身没有影响。 可能原因 FlinkServer作业Task持续背压的具体原因可在具体日志中查看。 处理步骤 使用具有FlinkServer管理操作权限的用户登录Manager。 选择“集群 > 服务 > Yarn”,单击“ResourceManager
查看告警信息里的主机名是否和1主机名一致。 是,执行4。 否,执行6。 按“ALM-12006 节点故障”提供的步骤处理该告警。 在告警列表中查看“LdapServer服务不可用”告警是否清除。 是,处理完毕。 否,执行10。 检查LdapServer进程是否正常。 选择“运维 > 告警 > 告警”
inkServer将无法正常对外提供服务,FlinkServer提交Flink作业功能无法正常使用。 可能原因 用户HA证书文件已过期。 处理步骤 查看告警信息。 登录FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45655 Flink
系统当前指标取值满足自定义的告警设置条件 对系统的影响 查询可能会阻塞甚至失败。 可能原因 该Impalad服务维护的查询数量过多,或者阈值设定的太小。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 阈值设置 > Impala > 查询任务总数统计 > 等待中的查询总数”,检查阈值大小。
ALM-16004 Hive服务不可用 是,执行3。 否,执行4。 根据对应服务不可用告警帮助提供的故障处理对应告警。 告警全部恢复后,等待几分钟,检查本告警是否恢复。 是,处理完毕。 否,执行4。 检查NameNode节点内存是否不足。 检查NameNode节点内存,查看是否有节点存在内存不足的问题。
推荐2-10 否:执行9。 重启作业,检查告警是否恢复。 是,处理完毕。 否,执行9。 联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 不涉及。 父主题: MRS集群告警处理参考
产生告警的主机名。 对系统的影响 Flume证书文件已过期,功能受限,Flume客户端将无法访问Flume服务端。 可能原因 Flume证书文件已过期。 处理步骤 查看告警信息。 登录FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-24012 Flume证书文件已过期
Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务进程响应缓慢或不可用。 可能原因 告警阈值配置或者平滑次数配置不合理。 处理步骤 检查告警阈值配置或者平滑次数配置是否合理。 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 新数据写入失败,任务中断。 可能原因 集群磁盘容量已满。 BE节点间数据倾斜。 处理步骤 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,查看当前告警“定位信息”中的角色名并确认主机名所在的IP地址。
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 内存使用过高,部分查询任务可能因为内存不足而失败。 可能原因 该节点实例内存使用率过大,或配置的内存不合理。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 阈值设置 > Impala > CPU和内存 > Cat
可能原因 请求OBS接口频率太高。 处理步骤 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > meta > OBS操作被流控总数”,将阈值或平滑次数参数的值根据实际情况调大。 观察界面告警是否清除。 是,处理完毕。 否,执行3。 联系OBS运维人员查看OBS服务是否正常。
安装或扩容过程中,实例数或分配方式不能满足拓扑要求。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,找到本告警,根据告警中的“定位信息”和“附加信息”分析告警原因。 参考下表,根据告警附加信息说明和处理方式进行处理。 告警附加信息 说明 处理方式 n ClickHouseServer
图1 设置告警阈值 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行4。 检查网络是否异常。 联系网络管理员,检查网络是否存在异常。 是,恢复网络故障,执行5。 否,执行6。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行6。 收集故障信息。 在主集群的FusionInsight
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 可能造成主机上业务无法发起对外建立连接,业务中断。 可能原因 临时端口不满足当前业务需求。 系统环境异常。 处理步骤 扩大临时端口范围。 打开FusionInsight Manager页面,在实时告警列表中,单击此告警所在行的,获取告警所在主机IP地址。
附加信息 触发条件 告警触发的条件。 对系统的影响 业务延迟:主机CPU使用率过高时,可能会导致业务进程运行处理缓慢、业务延迟。 业务失败:主机CPU使用率过高时,可能会导致业务处理缓慢、超时、失败,可能会导致作业运行失败。 可能原因 告警阈值配置或者平滑次数配置不合理。 CPU配置无