检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备本地应用开发环境 准备连接集群配置文件 应用程序开发或运行过程中,需通过集群相关配置文件信息连接MRS集群,配置文件通常包括集群组件信息文件以及用于安全认证的用户文件,可从已创建好的MRS集群中获取相关内容。 用于程序调测或运行的节点,需要与MRS集群内节点网络互通,同时配置hosts域名信息。
准备本地应用开发环境 准备连接集群配置文件 应用程序开发或运行过程中,需通过集群相关配置文件信息连接MRS集群,配置文件通常包括集群组件信息文件以及用于安全认证的用户文件,可从已创建好的MRS集群中获取相关内容。 用于程序调测或运行的节点,需要与MRS集群内节点网络互通,同时配置hosts域名信息。
JDK:支持1.8版本;IBM JDK:支持1.8.5.11版本。 TaiShan客户端:OpenJDK:支持1.8.0_272版本。 说明: 基于安全考虑,服务端只支持TLS V1.2及以上的加密协议。 安装和配置IDEA 用于开发Oozie应用程序的工具。版本要求:支持JDK1.8以上的版本。
er2-Background-Pool,其中HiveServer2-Handler-Pool用于处理session连接,HiveServer2-Background-Pool用于处理SQL语句的执行。 当前的健康检查机制是通过新增一个session连接,并在该session所在的
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 内存使用过高,部分查询任务可能因为内存不足而失败。 可能原因 Impalad进程正在执行较大量查询任务。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 阈值设置 > Impala > CPU和内存 > Imp
系统当前指标取值满足自定义的告警设置条件 对系统的影响 查询可能会阻塞甚至失败。 可能原因 该Impalad服务维护的查询数量过多,或者阈值设定的太小。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 阈值设置 > Impala > 查询任务总数统计 > 提交中的查询总数”,检查阈值大小。
OBS服务端出现执行异常或严重超时。 处理步骤 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > meta > OBS的write接口调用失败总数”,将阈值或平滑次数参数的值根据实际情况调大。 观察界面告警是否清除。 是,处理完毕。 否,执行3。 联系OBS运维人员查看OBS服务是否正常。
对系统的影响 导致PolicySync响应缓慢。 可能原因 该节点PolicySync实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45292 Polic
可能会导致用户业务数据丢失或者Manager页面数据显示异常。 可能原因 主备节点网络不稳定。 备OMS数据库异常。 备节点磁盘空间满。 处理步骤 检查主备节点网络是否正常。 在FusionInsight Manager界面上选择“运维 > 告警 > 告警”,在告警列表中,单击此
图1 设置告警阈值 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行4。 检查网络是否异常。 联系网络管理员,检查网络是否存在异常。 是,恢复网络故障,执行5。 否,执行6。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行6。 收集故障信息。 在主集群的FusionInsight
对系统的影响 业务失败:文件系统无法正常写入时,如果需要修改或使用该磁盘上的数据,可能会导致作业运行失败。 可能原因 磁盘写入的小文件过多。 处理步骤 磁盘写入的小文件过多。 打开FusionInsight Manager页面,选择“运维 > 告警 > 告警”,单击此告警所在行的,获取告警所在主机地址和磁盘分区。
否,执行11。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行12。 检查系统环境是否异常。 联系操作系统管理员,检查操作系统是否存在异常。 是,恢复操作系统故障,执行13。 否,执行14。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行14。 收集故障信息。 在主集群的FusionInsight
否,请联系运维人员进行处理。 等待5分钟后,在Manager页面选择“运维 > 告警 > 告警”页签,查看该告警是否清除。 是,处理完毕。 否,请联系运维人员进行处理。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 不涉及。 父主题: MRS集群告警处理参考
甚至造成内存溢出导致Hive服务不可用。 可能原因 该节点Hive实例直接内存使用量过大,或分配的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“告警ID”为“160
er”。 是,执行3。 否,执行5。 参考ALM-12007 进程故障的处理步骤处理该故障。 在告警列表中,查看“ALM-16047 HiveServer已从Zookeeper注销”告警是否清除。 是,处理完毕。 否,执行5。 检查Hive相关配置修改是否正确。 在FusionInsight
Tez或者Spark库路径不存在,会影响Hive on Tez,Hive on Spark功能。 可能原因 Tez或者Spark在HDFS上库路径被删除。 处理步骤 检查Tez和Spark库路径。 以root用户登录客户端所在节点,用户密码为安装前用户自定义,请咨询系统管理员。 执行以下命令,检查
KrbServer服务不可用”告警产生。 是,执行4。 否,执行5。 参考ALM-25500 KrbServer服务不可用的处理步骤处理故障后,检查本告警是否恢复。 是,处理完毕。 否,执行5。 检查Zookeeper服务状态。 在FusionInsight Manager的告警列表中,查看是否有“ALM-13000
查看“Diagnostics”对应的描述信息,根据定位的任务被终止的详情(例如:被某用户终止)处理相关问题。 图1 单击“KILLED” 等待3分钟,查看该告警是否消除。 是,处理完毕。 否,执行7。 收集故障信息。 在FusionInsight Manager界面,选择“运维
运行状态和日志来确定问题原因,是Flink作业级别的告警,对FlinkServer本身没有影响。 可能原因 失败原因可在具体日志中查看。 处理步骤 使用具有FlinkServer管理操作权限的用户登录Manager。 选择“集群 > 服务 > Yarn”,单击“ResourceManager
影响,将导致主备模式下FlinkServer提交Flink作业功能无法正常使用,双主模式不受影响。 可能原因 用户HA证书文件即将到期。 处理步骤 查看告警信息。 登录FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45654 Flink