检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
检查弹性伸缩是否关闭 登录华为云MRS管理控制台界面,选择对应集群,单击“弹性伸缩”。 查看当前集群的弹性伸缩策略是否是关闭状态。 否,请跟业务方确认是否可以关闭,如果可以请关闭弹性伸缩,否则请另择时间进行补丁升级。 是,弹性伸缩关闭,检查结束。 检查是否有正在运行的任务 登录FusionInsight
地址。 单击“组件管理 > HDFS > 实例”,在实例列表中单击告警节点上的JournalNode实例,查看其“操作状态”是否为“已启动”。 是,执行2.a。 否,执行1.d。 勾选该JournalNode实例,单击“更多 > 启动实例”,等待启动完成。 等待5分钟后,查看告警是否清除。
rker超过100个时,“-Xmx”设置为不小于5G,以此类推。 重启受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。 否,执行6。 服务或实例重启过程中,业务会出现中断,待服务或实例重启成功后业务恢复。 收集故障信息。 在FusionInsight Manager界面,选择“运维
该节点Hive实例直接内存使用量过大,或分配的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“告警ID”为“16006”的告警,查看“定位信息”中的角色名并确定实例的IP地址。
Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Kafka > 实例”,进入Kafka实例页面。 查看所有Broker实例中是否有已停止的实例。 是,执行6。 否,执行7。 勾选所有已停止的Broker实例,单击“启动实例”。 观察界面告警是否清除。 是,处理完毕。 否,执行8。 收集故障信息。
模型。 基于角色的权限控制 MRS基于用户和角色的认证统一体系,遵从账户/角色RBAC(Role-Based Access Control)模型,实现通过角色进行权限管理,对用户进行批量授权管理,同时提供单点登录能力,统一了系统用户和组件用户的管理及认证。具体机制详情描述请参见权限机制。
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 FGC时间超出阈值,会影响到数据的读写。 可能原因 该节点实例内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间 用户可通过“运维> 告警 > 阈值设置 > Impala> 进程FGCT >Impalad进程FGCT(
等。 可能原因 JobHistoryServer实例异常。 KrbServer服务异常。 ZooKeeper服务异常。 HDFS服务异常。 Yarn服务异常。 处理步骤 检查Mapreduce服务JobHistoryServer实例状态。 在FusionInsight Manager界面,选择“集群
配置LDAP输出审计日志 用户可以通过设置LDAP服务的审计日志输出级别,将审计内容输出至系统日志信息中(如“/var/log/messages”),用于查看用户的活动信息及操作指令信息。 LDAP的审计日志开启后,会产生大量日志信息,严重影响集群性能,请谨慎开启。 该章节仅适用于MRS
修改副本节点AZ 以客户端安装用户,登录安装客户端的节点。执行以下命令,切换到客户端安装目录。 cd {客户端安装路径} 执行以下命令配置环境变量。 source bigdata_env 执行以下命令进行用户认证(普通模式跳过此步骤)。 kinit 组件业务用户 执行以下命令登录客户端工具。 zkCli
该节点Hive实例非堆内存使用量过大,或分配的非堆内存不合理,导致使用率超过阈值。 处理步骤 检查非堆内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“告警ID”为“16008”的告警,查看“定位信息”中的角色名并确定实例的IP地址。
选择“权限 > 用户”,单击“添加用户”。 输入用户名,选择“用户类型”选择“人机”类型,设置用户密码,在用户组添加Hive相应权限的用户组并选择主组,绑定新创建的角色,单击“确定”完成Hive用户创建。 待用户生成后,即可使用该用户执行相应SQL语句。 父主题: Hive用户权限管理
已完成MRS与LakeFormation实例的对接。 操作步骤 登录MRS管理控制台,选择“现有集群”,单击待操作的集群名称。 单击“IAM用户同步”后的“同步”,等待同步成功。 以admin用户登录MRS集群的FusionInsight Manager页面,具体操作请参考访问FusionInsight
对系统的影响 用户提交的Spark任务执行失败。 可能原因 KrbServer服务异常。 LdapServer服务异常。 ZooKeeper服务异常。 HDFS服务故障。 Yarn服务故障。 对应的Hive服务故障。 处理步骤 检查Spark依赖的服务是否有服务不可用告警。 登录MRS集群详情页面,选择“告警管理”。
对系统的影响 用户提交的Spark任务执行失败。 可能原因 KrbServer服务异常。 LdapServer服务异常。 ZooKeeper服务异常。 HDFS服务故障。 Yarn服务故障。 对应的Hive服务故障。 处理步骤 检查Spark依赖的服务是否有服务不可用告警。 登录MRS集群详情页面,选择“告警管理”。
检查Broker状态。 选择“组件管理 > Kafka > Broker”,进入Kafka实例页面。 查看“角色”中所有实例是否正常。 是,执行3.d。 否,执行3.c。 勾选Broker所有实例,选择“更多 > 重启实例”,查看是否重启成功。 是,执行3.d。 否,执行4。 选择“组件管理 >
Loader进程垃圾回收(GC)时间超过阈值”,检查该告警的“定位信息”。查看告警上报的实例主机名。 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Loader > 实例”,单击上报告警实例主机名对应的角色名,单击图表区域右上角的下拉菜单,选择“定制”,
位信息”中的角色名并确定实例的IP地址。 告警上报的角色是HMaster,执行2。 告警上报的角色是RegionServer,执行3。 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > HBase > 实例”,单击告警上报的HMas
拦截和熔断规则会中断SQL任务,请根据实际业务配置合理的值。 动态规则dynamic_0001(SQL语句扫描的文件数超过阈值),当Spark与Tez引擎达到提示阈值时拦截日志会在Yarn任务日志中打印,不支持在Beeline客户端输出。 熔断规则存在统计误差,例如规则running_0004,扫描
阈值为每GB对应500000块数,用户根据需要调整内存值),确认GC_PROFILE的值为custom,保存配置。 选择“集群 > 待操作集群的名称 > HDFS > 实例”勾选状态为“配置过期”的DataNode实例,选择“更多 > 重启实例”使GC_OPTS配置生效。 重启期