检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ResourceManager堆内存使用率超过阈值”。 是,查看“ALM-18008 ResourceManager堆内存使用率超过阈值”进行处理。 否,执行8。 观察界面告警是否清除。 是,处理完毕。 否,执行9。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
arn服务不可用。 可能原因 该节点Yarn NodeManager实例非堆内存使用量过大,或分配的非堆内存不合理,导致使用量超过阈值。 处理步骤 检查非堆内存使用量。 在FusionInsight Manager界面,选择“运维 > 告警 > 告警 > ALM-18017 Yarn
根据对应服务不可用告警帮助提供的故障处理对应告警。 告警全部恢复后,等待几分钟,检查本告警是否恢复。 是,处理完毕。 否,执行2。 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
根据对应服务不可用告警帮助文档处理对应告警。 告警全部恢复后,等待几分钟,检查本告警是否恢复。 是,处理完毕。 否,执行2。 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
OBS数据读操作接口调用成功率小于阈值,会影响上层大数据计算业务的正常执行,导致某些计算任务的执行失败。 可能原因 OBS服务端出现执行异常或严重超时。 处理步骤 检查堆内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > OBS数据读操作接口调用成
对系统的影响 直接内存溢出可能导致服务崩溃。 可能原因 节点UserSync实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45282 Us
产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 无 可能原因 Presto实例线程数量过大。 Presto并发执行的任务过多。 处理步骤 检查任务并发量 检查当前集群CPU负载是否正常,SQL并发量是否符合预期。 是,执行2。 否,执行4。 调整线程数告警触发阈值。 在FusionInsight
产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 无 可能原因 Presto实例线程数量过大。 Presto并发执行的任务过多。 处理步骤 检查任务并发量 检查当前集群CPU负载是否正常,SQL并发量是否符合预期。 是,执行2。 否,执行4。 调整线程数告警触发阈值。 在FusionInsight
占用服务器资源,ClickHouse服务的性能下降。 数据不一致。 可能原因 数据量过大,导致mutation任务执行缓慢或者mutation任务执行卡住。 处理步骤 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,查看当前告警“定位信息”中的角色名以及确认主机名所在的IP地址。
集群管理类 缩容Task节点失败 如何处理集群内部OBS证书过期 MRS集群更换磁盘(适用于2.x及之前) MRS集群更换磁盘(适用于3.x) MRS备份任务执行失败 Core节点出现df显示的容量和du显示的容量不一致 如何解除网络ACL的关联子网 修改节点主机名后导致MRS集群状态异常
务,可能会导致大量的业务查询请求超时。 可能原因 Broker用于处理请求的线程数配置不合理。 慢盘故障。 Broker磁盘IO繁忙。 Broker的分区分布不均匀,存在热点。 处理步骤 检查Broker用于处理请求的线程数配置是否不合理。 登录FusionInsight Manager,选择“集群
rk任务历史执行记录。 可能原因 该节点JobHistory2x进程堆内存使用率过大,或配置的堆内存不合理,导致进程Full GC频繁。 处理步骤 检查Full GC次数 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“告警ID”为“43
资源组排队数超过该组最大排队数(maxQueued)时,会导致新的任务无法执行。 可能原因 资源组配置不合理或该资源组下提交的任务过多。 处理步骤 选择“集群 > 待操作集群的名称 > 服务 > Presto > 配置 > 全部配置”,修改“resource-groups”的值调整资源组配置,修改“
告警解释 ClickHouse组件开启自定义逻辑集群后,当检测到某个自定义逻辑集群存在单副本时,系统产生此告警。 当检测到自定义逻辑集群使用多副本时,告警自动清除。 告警属性 告警ID 告警级别 是否自动清除 45434 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称
“-Xmx”的值默认2G。 如果该告警偶然发生,参数值按照0.5倍速率调大。如果该告警频繁发生,参数值按照1倍速率调大。 多业务量、高并发的情况可以考虑扩容实例。 观察界面告警是否清除。 是,处理完毕。 否,执行5。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志
IoTDBServer进程RPC过高,会影响IoTDBServer进程数据读写性能下降。 可能原因 IoTDBServer RPC有一个请求处理时长超过阈值,需要进一步分析日志查看。 处理步骤 收集故障信息。 在FusionInsight Manager页面,选择“运维 > 告警 > 告警”,在实时告警
8G: 如果该告警偶然发生,参数值按照0.5倍速率调大。如果该告警频繁发生,参数值按照1倍速率调大。 多业务量、高并发的情况可以考虑扩容实例。 观察界面告警是否清除。 是,处理完毕。 否,执行5。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志
Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 影响任务执行和客户端连接FE。 可能原因 FE堆内存过小。 处理步骤 检查堆内存使用率。 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Doris
File”监控项查看。 等待5分钟后,检查本告警是否清除。 是,处理完毕。 否,执行3。 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
x及以前版本)的处理步骤处理故障后,检查本告警是否恢复。 是,处理完毕。 否,执行2.b。 检查HDFS服务状态。 登录MRS集群详情页面,选择“告警管理”。 在告警列表中,查看是否有HDFS相关告警产生。 是,执行2.c。 否,执行3.b。 单击“告警管理”,根据告警帮助处理HDFS相关告警后,检查本告警是否恢复。