检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。 父主题: MRS集群告警处理参考
告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。 父主题: MRS集群告警处理参考
对系统的影响 MonitorServer证书文件即将失效,对系统目前运行无影响。 可能原因 MonitorServer证书文件即将到期。 处理步骤 查看告警信息。
Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 导致RangerAdmin响应缓慢。 可能原因 该节点RangerAdmin实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。
系统每5分钟检查CDL任务配置的复制槽Slot积压数据量是否超过阈值,如果是,则产生该告警。复制槽Slot积压低于阈值,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45617 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
对系统的影响 Flink作业级别的告警,对FlinkServer本身无影响,需要用户查看Flink作业日志来确定失败原因。 可能原因 失败原因可在具体日志中查看。 处理步骤 使用具有FlinkServer管理操作权限的用户登录Manager。
告警属性 告警ID 告警级别 是否可自动清除 50402 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 对系统的影响 用户无法操作与JobGateway组件相关的作业功能。
在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 父主题: MRS集群告警处理参考
在有很多小文件时,Spark会启动很多Task,此时当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响系统性能。
配置描述 参数入口: 在Manager系统中,选择“集群 > 待操作集群的名称 > 服务 > Yarn > 配置”,选择“全部配置”,在搜索框中输入参数名称“mapreduce.job.am.memory.policy”。
已启用Ranger授权的组件(HDFS与Yarn除外),Manager上非系统默认角色的权限将无法生效,需要通过配置Ranger策略为用户组赋权。 图1 启用Ranger鉴权 滚动重启服务或者重启服务。 父主题: 使用Ranger
<系统域名>@<系统域名>”。
检查系统中合法HA证书文件的有效期,重新生成HA证书文件。 以omm用户登录告警所在节点主机。
Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务进程响应缓慢或不可用。 可能原因 告警阈值配置或者平滑次数配置不合理。 处理步骤 检查告警阈值配置或者平滑次数配置是否合理。
Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 HDFS集群磁盘容量不足,会影响到HDFS的数据写入。 可能原因 HDFS集群配置的磁盘空间不足。 处理步骤 查看磁盘容量,清除无用文件。
告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。 父主题: MRS集群告警处理参考
如果告警节点时间比主OMS节点NTP服务时间慢,校正告警节点的系统时间。校正告警节点的系统时间后,选择“更多 > 启动所有角色”启动告警节点的服务。 如果告警节点时间比主OMS节点NTP服务时间快,等待相应时间差,校正告警节点的系统时间。
Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 可能会导致任务运行时申请不到内存而失败。 可能原因 BE节点内存被其他进程占用过大导致机器剩余内存不够,或BE服务最大内存上限设置过大。
系统判断流程可参考下图所示,如果组件资源请求未匹配到Ranger中的权限策略,系统默认将拒绝访问。但是对于HDFS和Yarn,系统会将决策下放给组件自身的访问控制层继续进行判断。
Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 HDFS集群磁盘容量不足,会影响到HDFS的数据写入。 可能原因 HDFS集群配置的磁盘空间不足。 处理步骤 查看磁盘容量,清除无用文件。