检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
空间耗尽,最终导致PostgreSQL或Opengauss数据库无法提供服务。 可能原因 CDL任务异常,数据停止处理;或源端数据库更新快,CDL数据处理较慢。 处理步骤 使用具有创建CDL任务的用户或者具有管理员权限的用户登录FusionInsight Manager。 选择“运维
Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 影响任务执行和客户端连接FE。 可能原因 FE堆内存过小。 处理步骤 检查堆内存使用率。 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Doris
务,可能会导致大量的业务写入请求超时。 可能原因 Broker用于处理请求的线程数配置不合理。 慢盘故障。 Broker磁盘IO繁忙。 Broker的分区分布不均匀,存在热点。 处理步骤 检查Broker用于处理请求的线程数配置是否不合理。 登录FusionInsight Manager,选择“集群
rk任务历史执行记录。 可能原因 该节点JobHistory2x进程堆内存使用率过大,或配置的堆内存不合理,导致进程Full GC频繁。 处理步骤 检查Full GC次数 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“告警ID”为“43
File”监控项查看。 等待5分钟后,检查本告警是否清除。 是,处理完毕。 否,执行3。 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
NodeManager和ResourceManager之间的网络断连或者繁忙。 处理步骤 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
资源组排队数超过该组最大排队数(maxQueued)时,会导致新的任务无法执行。 可能原因 资源组配置不合理或该资源组下提交的任务过多。 处理步骤 选择“集群 > 待操作集群的名称 > 服务 > Presto > 配置 > 全部配置”,修改“resource-groups”的值调整资源组配置,修改“
ClickHouse组件中存在单副本,当出现硬件故障时,无法恢复数据。 可能原因 ClickHouse节点其组件配置目录下的metrika.xml配置信息中存在单副本配置。 处理步骤 检查ClickHouse实例metrika.xml配置是否正常 在FusionInsight Manager页面告警列表中,单击此告
直接内存溢出可能导致IoTDB实例不可用,可能影响该ConfigNode进程无法正常提供数据读写服务。 可能原因 节点配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存配置。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,在实时告警列表中,单击此告警
IoTDBServer进程RPC过高,会影响IoTDBServer进程数据读写性能下降。 可能原因 IoTDBServer RPC有一个请求处理时长超过阈值,需要进一步分析日志查看。 处理步骤 收集故障信息。 在FusionInsight Manager页面,选择“运维 > 告警 > 告警”,在实时告警
业务数据写操作相关数据无法入库。 可能原因 告警阈值配置不合理。 数据库数据量过大或磁盘配置无法满足业务需求,导致磁盘使用率达到上限。 处理步骤 检查阈值设置是否合理 在FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > DBService
FE进程的垃圾回收时间过长,可能影响该FE进程正常提供服务。 可能原因 该FE节点实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,查看“告警ID”为“50212”
非堆内存溢出可能导致服务崩溃。 可能原因 该节点RangerAdmin实例非堆内存使用率过大,或配置的非堆内存不合理,导致使用率超过阈值。 处理步骤 检查非堆内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45279 Ra
对系统的影响 非堆内存溢出可能导致服务崩溃。 可能原因 该节点TagSync实例非堆内存使用率过大,或配置的非堆内存不合理,导致使用率超过阈值。 处理步骤 检查非堆内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45287 Ta
x及以前版本)的处理步骤处理故障后,检查本告警是否恢复。 是,处理完毕。 否,执行2.b。 检查HDFS服务状态。 登录MRS集群详情页面,选择“告警管理”。 在告警列表中,查看是否有HDFS相关告警产生。 是,执行2.c。 否,执行3.b。 单击“告警管理”,根据告警帮助处理HDFS相关告警后,检查本告警是否恢复。
DataNode磁盘空间使用率超过阈值进行处理,查看对应告警是否清除。 是,6。 否,7。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行7。 对DataNode进行扩容 对DataNode进行扩容。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行9。 收集故障信息
否,执行9。 分别参考ALM-12006 节点故障、ALM-12007 进程故障、ALM-14002 DataNode磁盘空间使用率超过阈值的处理步骤处理告警。 查看本告警是否恢复。 是,操作结束。 否,执行9。 收集故障信息。 在FusionInsight Manager首页,选择“运维
ver进程正常提供服务。 可能原因 该节点JobHistoryServer实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-18012 JobHi
程中,该节点上的读写请求时延会变大或者失败。 可能原因 该节点HBase服务堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。 处理步骤 检查堆内存使用率 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“告警ID”为“19008
HBase服务进程堆内存使用率超出阈值”告警。 是,参考ALM-19008 HBase服务进程堆内存使用率超出阈值处理告警。 否,执行8。 观察界面告警是否清除。 是,处理完毕。 否,执行8。 收集故障信息 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。