检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
行或者执行超时失败。 数据处理异常:如果网络互通异常,数据处理会受到影响,例如会导致HDFS数据同步失败或者结果不准确。 系统性能下降:大数据集群之间的网络互通异常会导致系统性能下降,影响整个数据处理的效率和质量。 可能原因 节点宕机。 网络故障。 处理步骤 确认网络健康状态。 打开FusionInsight
Manager失败,AD域用户执行业务失败。 可能原因 对接第三方AD服务配置项错误 FusionInsight与第三方AD服务之间网络连接故障 AD服务器故障 AD服务故障 处理步骤 检查第三方AD配置。 在FusionInsight Manager页面,选择“系统 > 权限 > 第三方AD”,打开第三方AD配置页面。
集群获取不到最新的临时AK/SK,存算分离场景下,可能导致访问OBS失败,引起组件业务无法正常处理。 可能原因 MRS集群meta角色状态异常。 集群绑定过委托且访问过OBS,但是已经解绑了,现在未绑定委托。 处理步骤 检查meta角色状态。 在集群的FusionInsight Manager页面,选择“运维
/opt/knox/bin/restart-knox.sh 等待五分钟,查看该告警是否恢复。 是,处理完毕。 否,执行5。 请联系运维人员,进行处理。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无 父主题: MRS集群告警处理参考
Hive默认数据仓库被删除,会导致在默认数据仓库中创建库、创建表失败,影响业务正常使用。 可能原因 Hive定时查看默认数据仓库的状态,发现Hive默认数据仓库被删除。 处理步骤 检查Hive默认数据仓库。 以root用户登录客户端所在节点,用户密码为安装前用户自定义,请咨询系统管理员。 执行以下命令,检查“h
是,执行3。 否,执行5。 参考ALM-27001 DBService服务不可用的处理步骤处理该故障。 等待几分钟后,在告警列表中查看“Oozie连接DBService状态异常”告警是否清除。 是,处理完毕。 否,执行5。 检查Oozie与DBService连接是否异常。 在FusionInsight
新应用提交后长时间无法运行。 可能原因 NodeManager节点资源过小。 队列最大资源容量设置过小,AM最大资源百分比设置过小。 监控阈值设置过小。 处理步骤 检查NodeManager节点资源 在FusionInsight Manager界面,选择“集群 > 待操作集群的名称 > 服务 >
HDFS常见问题 执行distcp命令报错如何处理 HDFS执行Balance时被异常停止如何处理 访问HDFS WebUI时,界面提示无法显示此页 HDFS WebUI无法正常刷新损坏数据的信息 NameNode节点长时间满负载导致客户端无响应 为什么主NameNode重启后系统出现双备现象
单副本的Topic存在单点故障风险,当副本所在节点异常时,会直接导致Partition没有leader,影响该Topic上的业务。 可能原因 Topic副本数配置不合理。 处理步骤 检查Topic副本数配置。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,单击此告警所在行的,
KrbServer服务不可用”。 是,执行3。 否,执行5。 参考ALM-25500 KrbServer服务不可用章节处理对应的告警。 ALM-25500告警全部恢复后,等待几分钟,检查本告警是否恢复。 是,处理完毕。 否,执行5。 检查IoTDBServer实例是否故障 在FusionInsight Manager首页,选择“集群
Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务进程响应缓慢或不可用。 可能原因 告警阈值配置或者平滑次数配置不合理。 处理步骤 检查告警阈值配置或者平滑次数配置是否合理。 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称
Doris部分特性和功能不可用,例如:冷热分离和Hive OBS Catalog等。 可能原因 获取的AK/SK失效。 连接OBS失败。 处理步骤 确认上报告警原因。 登录FusionInsight Manager,选择“运维 > 告警 > 告警”,选中“告警ID”为“50230
业务延迟: 主机内存使用率过高时,可能会导致业务进程运行处理缓慢、业务延迟。 业务失败:主机内存使用率过高时,可能会导致业务进程内存溢出,可能会导致作业运行失败。 可能原因 内存配置无法满足业务需求。内存使用率达到上限。 处理步骤 对系统进行扩容。 打开FusionInsight
导致作业运行失败。 可能原因 告警阈值配置不合理。 omm用户可以同时打开的进程(包括线程)的最大个数配置不合理。 同时打开的进程过多。 处理步骤 检查告警阈值配置或者平滑次数配置是否合理。 在FusionInsight Manager界面,基于实际CPU使用情况,修改告警阈值和平滑次数配置项。
在弹出窗口中单击“确定”,处理完毕。 单击该JournalNode实例,查看其“配置状态”是否为“已同步”。 是,执行8。 否,执行6。 勾选该JournalNode实例,单击“启动实例”,等待启动完成。 等待5分钟后,查看告警是否清除。 是,处理完毕。 否,执行15。 查看J
当监控目录下的条目数超过系统阈值的90%触发该告警,但不影响对该目录继续增加条目。一旦超过系统最大阈值,继续增加条目会失败。 可能原因 监控目录的条目数超过系统阈值的90%。 处理步骤 检查系统中是否有不需要的文件。 以root用户登录HDFS客户端,用户密码为安装前用户自定义,请咨询系统管理员。执行cd命令进入客户端安装目录,然后执行source
是,执行3。 否,执行5。 参考ALM-13000 ZooKeeper服务不可用的处理步骤处理该故障。 等待几分钟后,在告警列表中查看“Oozie连接ZooKeeper状态异常”告警是否清除。 是,处理完毕。 否,执行5。 检查Oozie与ZooKeeper连接是否异常。 在FusionInsight
HBase存在损坏的StoreFile文件,可能会导致位于该文件上的数据丢失,业务查询数据可能出现不一致。 可能原因 StoreFile文件内容损坏。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,查看“告警ID”为“19025”的告警的“定位信息”中上报该告警的服务名。
HBase存在损坏的WAL文件,如果位于该文件上的数据未落盘,会导致这部分数据丢失,业务查询数据时出现部分数据不一致。 可能原因 WAL文件内容损坏。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,查看“告警ID”为“19026”的告警的“定位信息”中上报该告警的服务名。
HBase关键目录丢块,会导致HBase服务不可用,造成业务请求积压或中断。 可能原因 HDFS故障导致HBase关键目录丢块。 处理步骤 关键目录数据存在坏块的处理步骤,涉及停止HBase服务等用于快速恢复HBase服务的操作,会导致业务中断,请谨慎操作,同时需要关注业务侧数据积压问题。