检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
FE进程的垃圾回收时间过长,可能影响该FE进程正常提供服务。 可能原因 该FE节点实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,查看“告警ID”为“50212”
Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 影响任务执行和客户端连接FE。 可能原因 FE堆内存过小。 处理步骤 检查堆内存使用率。 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Doris
File”监控项查看。 等待5分钟后,检查本告警是否清除。 是,处理完毕。 否,执行3。 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
x及以前版本)的处理步骤处理故障后,检查本告警是否恢复。 是,处理完毕。 否,执行2.b。 检查HDFS服务状态。 登录MRS集群详情页面,选择“告警管理”。 在告警列表中,查看是否有HDFS相关告警产生。 是,执行2.c。 否,执行3.b。 单击“告警管理”,根据告警帮助处理HDFS相关告警后,检查本告警是否恢复。
NodeManager和ResourceManager之间的网络断连或者繁忙。 处理步骤 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
否,执行4。 等待30秒,查看告警是否恢复。 是,处理完毕。 否,执行4。 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
n服务不可用。 可能原因 该节点Yarn ResourceManager实例堆内存使用量过大,或分配的堆内存不合理,导致使用量超过阈值。 处理步骤 检查堆内存使用量。 在FusionInsight Manager界面,选择“运维 > 告警 > 告警 > Yarn ResourceManager堆内存使用率超过阈值
ager进程正常提供服务。 可能原因 该节点ResourceManager实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-18010 Resou
等待几分钟后,在告警列表中查看该告警是否清除。 是,处理完毕。 否,执行5。 排查访问HBase服务的应用的并发数,确认并发数是否过大。 是,执行6。 否,执行8。 应用根据实际业务适当调小并发数。 等待几分钟后,在告警列表中查看该告警是否清除。 是,处理完毕。 否,执行8。 收集故障信息 在FusionInsight
业务数据写操作相关数据无法入库。 可能原因 告警阈值配置不合理。 数据库数据量过大或磁盘配置无法满足业务需求,导致磁盘使用率达到上限。 处理步骤 检查阈值设置是否合理 在FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > DBService
UI。 参考如何创建FlinkServer作业,新建Flink SQL作业,作业类型选择“流作业”。在作业开发界面进行如下作业配置并启动作业。 需勾选“基础参数”中的“开启CheckPoint”,“时间间隔(ms)”可设置为“60000”,“模式”可使用默认值。 安全集群且HBase的认证模式为hbase
PMS进程占用内存高 用户问题 主Master节点内存使用率高如何处理? 问题现象 主Master节点内存使用率高,且用top -c命令查询的内存占用量高的是如下idle的进程。 原因分析 PostgreSQL缓存:除了常见的执行计划缓存、数据缓存,PostgreSQL为了提高生
查询Spark任务历史执行记录。 可能原因 该节点JobHistory2x进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“ID”为“43009”的告警
周期备份任务失败,可能会导致长时间没有可用的备份包,在系统出现异常时,无法恢复。 可能原因 该告警产生原因依赖于该任务的详细情况,直接获取日志和任务详情来处理该告警。 处理步骤 查看磁盘空间是否不足 在MRS Manager界面,单击“告警管理”。 在告警列表中单击该告警的,从“定位信息”处获得“任务名”。
监控指标转储失败会影响上层管理系统无法获取到MRS Manager系统的监控指标。 可能原因 无法连接服务器。 无法访问服务器上保存路径。 上传监控指标文件失败。 处理步骤 联系运维人员查看MRS Manager系统与服务器网络连接是否正常。 是,执行3。 否,执行2。 联系运维人员恢复网络连接,然后检查告警是否恢复。
HBase服务不可用”告警产生。 是,执行2.i。 否,执行3.a。 参考ALM-19000 HBase服务不可用(2.x及以前版本)的处理步骤处理该故障。 等待几分钟后检查本告警是否恢复。 是,处理完毕。 否,执行3.a。 检查主备集群RegionServer之间的网络连接。 登录MRS集群详情页面,选择“告警管理”。
可能原因 计算实例资源配置过小。 业务存在大SQL任务,占用过多计算资源,导致其他提交的任务无资源可用,整个计算实例响应变慢,造成任务积压。 处理步骤 检查计算实例资源配置是否合理 使用可访问HetuEngine WebUI界面的管理员用户登录FusionInsight Manager。
OBS元数据接口调用成功率小于阈值,会影响上层大数据计算业务的正常执行,导致某些计算任务的执行失败。 可能原因 OBS服务端出现执行异常或严重超时。 处理步骤 检查堆内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > OBS元数据接口调用成功率
对系统的影响 导致UserSync响应缓慢。 可能原因 该节点UserSync实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45284 UserS
非堆内存溢出可能导致服务崩溃。 可能原因 该节点PolicySync实例非堆内存使用率过大,或配置的非堆内存不合理,导致使用率超过阈值。 处理步骤 检查非堆内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45291 Po