正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
参考“ALM-27001 DBService服务不可用”告警帮助指导对DBService服务状态异常进行处理,待DBService告警消除后,查看“Ranger服务不可用”告警是否清除。 是,处理完毕。 否,执行3。 检查所有RangerAdmin实例。 以omm用户登录RangerAdmin实例所在节点,执行ps
ClickHouse服务当前的部署不具备跨AZ高可用能力。 可能原因 开启跨AZ高可用之后,同一个shard的所有副本节点在一个AZ内。 处理步骤 修改副本节点AZ 以客户端安装用户,登录安装客户端的节点。执行以下命令,切换到客户端安装目录。 cd {客户端安装路径} 执行以下命令配置环境变量。
否,执行5。 参考“ALM-45643 RocksDB的MemTable大小持续超过阈值”章节处理对应的告警。 ALM-45643告警全部恢复后,等待几分钟,检查本告警是否恢复。 是,处理完毕。 否,执行5。 检查是否Level0层SST文件数太多 在FusionInsight Manager首页,选择“运维
linkServer将无法正常对外提供服务,FlinkServer提交Flink作业功能无法正常使用。 可能原因 用户HA证书文件失效。 处理步骤 查看告警信息。 登录FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45653 Flink
业务失败:主机网络写吞吐率超过阈值时,请求无法正常响应、超时,可能会导致作业运行失败。 可能原因 告警阈值配置不合理。 网口速率不满足当前业务需求。 处理步骤 检查阈值设置是否合理。 在FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机
升级观察期禁止对用户、实例、角色、服务、主机、资源池等执行添加或删除等影响管理拓扑结构的操作。 可能原因 系统升级之后超过一定时间(默认为10天)未做升级提交。 处理步骤 查看系统是否处于升级观察期。 以root用户登录主管理节点,用户密码为安装前用户自定义,请咨询系统管理员。管理节点的主备状态及对应IP地址可在FusionInsight
否,执行11。 参考“ALM-25500 KrbServer服务不可用”进行处理,查看KrbServer服务是否能够恢复。 是,执行12。 否,执行23。 在“运维 > 告警 > 告警”页签,查看该告警是否恢复。 是,处理完毕。 否,执行13。 检查ZooKeeper服务实例状态。 在FusionInsight
否,执行13。 参考“ALM-14008 HDFS DataNode内存使用率超过阈值”的处理步骤,对该异常告警进行处理,查看是否消除该告警。 是,执行12。 否,执行13。 在告警列表中查看本告警是否恢复。 是,处理完毕。 否,执行13。 查看NameNode是否负荷过高。 在FusionInsight
是,执行6。 否,执行8。 参考“ALM-14002 DataNode磁盘空间使用率超过阈值”进行处理,查看对应告警是否清除。 是,执行7。 否,执行8。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行8。 对DataNode进行扩容 对DataNode进行扩容。 在FusionInsight
状态和Z状态。或进程可能被挂起进入T状态。 处理步骤 查看进程是否处于D、Z、T状态 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,等待约10分钟后,在告警列表中查看该告警是否自动清除。 是,处理完毕。 否,查看该告警详细信息,记录上报告警的主机IP地址。执行2。
应用任务结束时间变长。 新应用提交后长时间无法运行。 可能原因 NodeManager节点资源过小。 队列最大资源容量设置过小。 AM最大资源百分比设置过小。 处理步骤 检查告警详情。 在FusionInsight Manager界面,选择“运维 > 告警 > 告警”,弹出告警页面。 查看“Yarn队
相关参数配置不合理。 处理步骤 检查相关配置是否合理 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,查看是否存在告警ID为“19008”或“19011”的告警。 是,单击对应告警右侧的“查看帮助”并按照帮助文档进行处理,执行3。 否,执行2。
集群内用户密码的过期时间如何查询和修改? 查询密码有效期 查询组件运行用户(人机用户、机机用户)密码有效期: 以客户端安装用户,登录安装了客户端的节点。 执行以下命令,切换到客户端目录,例如“/opt/Bigdata/client”。 cd /opt/Bigdata/client
使用Hue提交提交Bundle批处理作业 操作场景 当同时存在多个定时任务的情况下,用户可以通过Bundle任务进行批量管理作业。该任务指导用户通过Hue界面提交批量类型的作业。 前提条件 提交Bundle批处理之前需要提前配置好相关的Workflow和Coordinator作业。
业务失败:主机网络读吞吐率超过阈值时,请求无法正常响应、超时,可能会导致作业运行失败。 可能原因 告警阈值配置不合理。 网口速率不满足当前业务需求。 处理步骤 检查阈值设置是否合理。 在FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机
Manager失败,AD域用户执行业务失败。 可能原因 对接第三方AD服务配置项错误 FusionInsight与第三方AD服务之间网络连接故障 AD服务器故障 AD服务故障 处理步骤 检查第三方AD配置。 在FusionInsight Manager页面,选择“系统 > 权限 > 第三方AD”,打开第三方AD配置页面。
集群获取不到最新的临时AK/SK,存算分离场景下,可能导致访问OBS失败,引起组件业务无法正常处理。 可能原因 MRS集群meta角色状态异常。 集群绑定过委托且访问过OBS,但是已经解绑了,现在未绑定委托。 处理步骤 检查meta角色状态。 在集群的FusionInsight Manager页面,选择“运维
/opt/knox/bin/restart-knox.sh 等待五分钟,查看该告警是否恢复。 是,处理完毕。 否,执行5。 请联系运维人员,进行处理。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无 父主题: MRS集群告警处理参考
状态和Z状态。或进程可能被挂起进入T状态。 处理步骤 查看进程是否处于D、Z、T状态 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,等待约10分钟后,在告警列表中查看该告警是否自动清除。 是,处理完毕。 否,查看该告警详细信息,记录上报告警的主机IP地址。执行2。
状态和Z状态。或进程可能被挂起进入T状态。 处理步骤 查看进程是否处于D、Z、T状态 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,等待约10分钟后,在告警列表中查看该告警是否自动清除。 是,处理完毕。 否,查看该告警详细信息,记录上报告警的主机IP地址。执行2。