检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
WebUI界面停止CDL任务时报错:parameter exception with code: 403 可能原因 当前用户没有停止该任务的权限。 处理步骤 使用创建该任务的用户停止该任务,创建该任务的用户可登录CDLService WebUI界面,在作业管理列表的“创建者”列查看。 父主题: CDL故障排除
LakeFormation侧创建的接入客户端所在虚拟私有云,必须与MRS集群在同一虚拟私有云下。 MRS集群仅支持对接LakeFormation实例中名称为hive的Catalog。 MRS存量集群需要先完成元数据库和权限策略向LakeFormation实例上迁移,再配置对接。 如果需
安全集群需要认证对HDFS有权限的用户,普通集群无需执行: kinit {用户} 执行以下命令进行回退(卸载完补丁后执行): sh rollback_hdfs_file.sh 回退完成后需要在FusionInsight Manager界面上重启Spark的JDBCServer2x实例。 回退客户端补丁
安装补丁前准备 安装补丁前需要手动进行以下相关检查。 检查所有节点管理平面网络是否互通 登录FusionInsight Manager界面,选择“运维 > 告警 > 告警”。 查看当前集群是否存在“ALM-12089 节点间网络互通异常”或“节点故障”等告警。 是,节点间网络不互通,请联系运维人员修复。
任务。 队列访问控制列表(Queue Acl) 为了方便管理集群中的用户,YARN将用户/用户组分成若干队列,并指定每个用户/用户组所属的队列。每个队列包含两种权限:提交应用程序权限和管理应用程序权限(比如终止任意应用程序)。 开源功能: 虽然目前YARN服务的用户层面上支持如下三种角色:
检查弹性伸缩是否关闭 登录华为云管理控制台界面,选择对应集群,单击“弹性伸缩”。 查看当前集群的弹性伸缩策略是否是关闭状态。 否,请跟业务方确认是否可以关闭,如果可以请关闭弹性伸缩,否则请另择时间进行补丁升级。 是,弹性伸缩关闭,检查结束。 检查是否有正在运行的任务 登录FusionInsight
安全集群需要认证对HDFS有权限的用户,普通集群无需执行: kinit {用户} 执行以下命令升级HDFS上的zip包: sh update_hdfs_file.sh 升级完成后需要在FusionInsight Manager界面上重启Spark的JDBCServer实例。 升级组件安装包 该
对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败 问题 对接OBS ECS/BMS集群,spark-beeline登录后,指定location到OBS建表报错失败。 图1 错误信息 回答 HDFS上ssl.jceks文件权限不足,导致建表失败。 解决方法 使用omm用户登录Spark2x所在节点,执行如下命令:
照需要修改该值,单击“保存”按钮保存配置。 在所有客户端的查询任务都执行完成后,选择“实例”页签,勾选所有“Impalad”实例并重启。 重启全部实例,服务不可用。重启单个实例,会导致当前实例节点正在执行的任务失败,服务可用。 重启完成后检查告警是否消失。 是,处理完毕。 否,执行6。
检查IoTDBServer实例是否故障 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > IoTDB > 实例”。 查看运行状态为“故障”的数量是否超过总数的50%并尝试重启故障IoTDBServer实例,检查运行状态是否恢复。 是,处理完毕。
de的剩余空间都已经给副本预留,则写入HDFS数据失败。 可能原因 告警阈值配置不合理。 HDFS集群配置的磁盘空间不足。 HDFS的业务访问量太大,超过了已有DataNode的负载能力。 处理步骤 查看阈值设置是否合理 在FusiongInsight Manager首页,选择“运维
具体请参考准备MRS应用开发用户。 使用新创建的用户登录Manager页面,选择“系统 > 权限 > 用户”,在已增加用户所在行的“操作”列,选择“更多 > 下载认证凭据”。 将下载的认证凭据压缩包解压缩,并将得到的“user.keytab”文件复制到客户端节点中,例如客户端节点的“/op
Loader直接内存使用率超过阈值”,检查该告警的“定位信息”。查看告警上报的实例主机名。 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Loader > 实例”,选择上报告警实例主机名对应的角色,单击图表区域右上角的下拉菜单,选择“定制”,勾
ssh”目录存在。 使用omm用户登录Oozie所在节点,查看“~/.ssh/id_rsa.pub”文件是否存在。 是,执行3。 否,执行以下命令生成公私钥: ssh-keygen -t rsa 以omm用户登录oozie实例所在节点,执行以下命令配置互信: ssh-copy-id -i
该节点Oozie实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > Oozie进程垃圾回收(GC)时间超过阈值”,检查该告警的“定位信息”。查看告警上报的实例主机名。
可能原因 该节点Hive实例内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“告警ID”为“16007”的告警,查看“定位信息”中的角色名并确定实例的IP地址。 告警
重启FlinkServer实例期间,当前实例无法对外提供服务,已提交的作业不受影响。 检查主备FlinkServer节点间链路是否正常。 通过“集群 > 服务 > Flink > 实例”查看FlinkServer两个实例的业务IP。 以root用户登录异常FlinkServer实例所在的服务器,用户密码为安装前用户自定义,请咨询系统管理员。
实例”,进入Storm实例管理页面。 查看是否存在状态为“故障”或者是“正在恢复”的Supervisor实例。 是,执行3。 否,执行5。 勾选状态为“故障”或者“正在恢复”的Supervisor角色实例,选择“更多 > 重启实例”,查看是否重启成功。 是,执行4。 否,执行10。 等待一段时间,检查该告警是否恢复。
使用HDFS的页面上传。 使用HetuEngine用户登录FusionInsight Manager,选择“集群 > 服务 > HDFS”,进入HDFS服务页面。 在概览页签下的“基本信息”区域,单击“NameNode WebUI”后的链接,进入NameNode WebUI界面。 选择“Utilities
使用的堆内存大小”的两倍(可根据实际业务场景进行修改)。 重启受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。 否,执行6。 重启服务期间服务不可用,业务中断。重启实例期间实例不可用,当前实例节点任务会执行失败。 收集故障信息。 在FusionInsight Manager界面,选择“运维