检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
对系统的影响 导致UserSync响应缓慢。 可能原因 该节点UserSync实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45284 UserS
非堆内存溢出可能导致服务崩溃。 可能原因 该节点PolicySync实例非堆内存使用率过大,或配置的非堆内存不合理,导致使用率超过阈值。 处理步骤 检查非堆内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45291 Po
Coordinator进程不可用。 可能原因 该节点Coordinator进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,单击“运维 > 告警 > 告警”,选中“告警ID”为“45327”
er进程无法正常提供数据读写服务。 可能原因 该节点IoTDBServer实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,弹出告警页面,选中“告警ID”为
否,执行5。 参考ALM-45644 RocksDB的Level0层SST文件数持续超过阈值章节处理对应的告警。 ALM-45644告警全部恢复后,等待几分钟,检查本告警是否恢复。 是,处理完毕。 否,执行5。 在TaskManager日志检查缓存命中率并收集日志 使用具有Flink
是,执行3。 否,执行5。 参考ALM-45643 RocksDB的MemTable大小持续超过阈值章节处理对应的告警。 ALM-45643告警全部恢复后,等待几分钟,检查本告警是否恢复。 是,处理完毕。 否,执行5。 检查是否Level0层SST文件数太大 在FusionInsight Manager首页,选择“运维
修复网络故障,查看告警列表中,该告警是否已清除。 是,处理完毕。 否,执行1.f。 联系运维人员查看是否节点硬件故障(CPU或者内存等)。 是,执行1.g。 否,执行2。 维修故障部件,并重启节点。查看告警列表中,该告警是否已清除。 是,处理完毕。 否,执行2。 收集故障信息。 在MRS
周期备份任务失败,可能会导致长时间没有可用的备份包,在系统出现异常时,无法恢复。 可能原因 该告警产生原因依赖于该任务的详细情况,直接获取日志和任务详情来处理该告警。 处理步骤 查看磁盘空间是否不足 在MRS Manager界面,单击“告警管理”。 在告警列表中单击该告警的,从“定位信息”处获得“任务名”。
监控指标转储失败会影响上层管理系统无法获取到MRS Manager系统的监控指标。 可能原因 无法连接服务器。 无法访问服务器上保存路径。 上传监控指标文件失败。 处理步骤 联系运维人员查看MRS Manager系统与服务器网络连接是否正常。 是,执行3。 否,执行2。 联系运维人员恢复网络连接,然后检查告警是否恢复。
HBase服务不可用”告警产生。 是,执行2.i。 否,执行3.a。 参考ALM-19000 HBase服务不可用(2.x及以前版本)的处理步骤处理该故障。 等待几分钟后检查本告警是否恢复。 是,处理完毕。 否,执行3.a。 检查主备集群RegionServer之间的网络连接。 登录MRS集群详情页面,选择“告警管理”。
的业务进程,可能会导致并发任务处理变慢、业务延迟。 业务失败:主机D状态和Z状态进程数过高时,无法创建新的业务进程,可能会导致作业运行失败。 可能原因 主机中正在等待的IO(磁盘IO、网络IO等)在较长时间内未得到响应,进程处于D状态和Z状态。 处理步骤 查看D状态和Z状态进程。
(例如Yarn、Flink、Spark等)的业务异常。 可能原因 往ZooKeeper数据目录空间写入大量数据。 自定义阈值设置不合理。 处理步骤 检查告警目录是否写入大量数据 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,单击告警“ALM-13009
NodeManager堆内存使用率超过阈值”。 是,查看“ALM-18018 NodeManager堆内存使用率超过阈值”进行处理。 否,执行8。 观察界面告警是否清除。 是,处理完毕。 否,执行9。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
ED”,单击最上面的任务。查看“Diagnostics”对应的描述信息,根据定位的任务失败原因,处理相关问题。 图1 单击“FAILED” 等待3分钟,查看该告警是否消除。 是,处理完毕。 否,执行7。 收集故障信息。 在FusionInsight Manager界面,选择“运维
是,执行3。 否,执行5。 参考“ALM-19008 HBase服务进程堆内存使用率超过阈值”的处理步骤处理该故障。 等待几分钟后,在告警列表中查看该告警是否清除。 是,处理完毕。 否,执行5。 在FusionInsight Manager首页,选择“集群 > 服务 > HBase
当非堆内存溢出时可能会导致Loader页面无法访问,无法正常对外提供服务。 可能原因 该节点Loader实例非堆内存使用率过大,或配置的非堆内存不合理,导致使用率超过阈值。 处理步骤 检查非堆内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > Loader非堆内存使用
缓存同步异常,进而导致组件业务故障。 可能原因 告警阈值配置或者平滑次数配置不合理。 CPU配置无法满足业务需求,CPU使用率达到上限。 处理步骤 检查告警阈值配置或者平滑次数配置是否合理。 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 用户无法使用Kudu服务。 可能原因 存在KuduTserver实例内存占用率过高。 处理步骤 处理Kudu实例异常 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”页面,找到“ALM-29104 T
查询Spark任务历史执行记录。 可能原因 该节点JobHistory2x进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“ID”为“43009”的告警
如何删除所有HiveServer中的永久函数 问题 如果需要删除永久函数(Permanent UDF),如何在多个HiveServer之间同步删除? 回答 因为多个HiveServer之间共用一个MetaStore存储数据库,所以MetaStore存储数据库和HiveServer