检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
检查主备集群RegionServer之间的网络连接。 登录主集群FusionInsight Manager界面,选择“运维 > 告警 > 告警”。 在告警列表中单击该告警,从完整的告警信息中“定位信息”处获得“主机名”。 以omm用户通过15获取的IP地址登录故障RegionServer节点。 执
新的路由信息之前,FusionInsight Manager页面无法登录,集群运行不受影响。 修改MRS集群Manager路由表前提条件 已获取待创建路由的相关信息。 禁用系统创建的路由信息步骤 以omm用户登录到集群主管理节点。执行以下命令,禁用系统创建的路由信息。 cd ${
安装补丁前准备 安装补丁前需要手动进行以下相关检查。 检查集群是否安装过相关紧急补丁 使用root用户登录集群主节点,并进入“/home/omm”目录。 查看是否存在“MRS_3.1.0_HBase_patch_20220929”、“MRS_3.1.0_OBSA_Patch_20230428”、“MRS_3
age”,对当前工程进行打包。 使用root用户登录ClickHouse客户端节点,创建运行目录,例如“/opt/test”,在IDEA的“target”目录下获取带有“-with-dependencies”的jar包,并将jar包和idea中conf文件夹一同上传到“/opt/test”目录,如:
sert/bulk_insert来将数据写入Hudi表。为了能够在文件大小和入湖速度之间进行权衡,Hudi提供了一个hoodie.parquet.small.file.limit配置来设置最小文件大小。用户可以将该配置设置为“0”,以强制新数据写入新的文件组,或设置为更高的值以确
compaction_threads”参数,值为“20”。 单击“保存”,保存配置。单击“实例”,勾选配置过期的BE实例,选择“更多 > 重启实例”,重启Doris BE实例。 在BE实例重启期间,运行在对应BE节点上的任务会失败,未进行重启的BE节点上的任务不受影响。 查看该告警是否清除。
单击“组件管理 > Hue > 实例”,记录主Hue的IP地址。 使用PuTTY工具登录主Hue的IP地址。 执行ping命令,查看主Hue所在主机与DBService服务所在主机的网络连接是否正常。(获取DBService服务IP地址的方式和获取主Hue IP地址的方式相同。)
等。 可能原因 JobHistoryServer实例异常。 KrbServer服务异常。 ZooKeeper服务异常。 HDFS服务异常。 Yarn服务异常。 处理步骤 检查Mapreduce服务JobHistoryServer实例状态。 在FusionInsight Manager界面,选择“集群
Loader进程垃圾回收(GC)时间超过阈值”,检查该告警的“定位信息”。查看告警上报的实例主机名。 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Loader > 实例”,单击上报告警实例主机名对应的角色名,单击图表区域右上角的下拉菜单,选择“定制”,
修改错误参数,单击“确定”。 选择“系统 > 权限 > 用户 > AD域用户”,单击“手工同步”,确认界面右上角是否提示“手工同步成功。”。 是,告警处理完毕。 否,执行5。 检查第三方AD服务器及网络。 以root用户登录主管理节点,用户密码为安装前用户自定义,请咨询系统管理员。管理节点的主备
若待退订的节点中部署了HDFS的DataNode、Yarn的NodeManager或HBase的RegionServer,需登录Manager退服相关实例,具体请参考退服和入服MRS角色实例。 在MRS管理控制台的“节点管理”页面,勾选需退订的节点,选择“节点操作 > 隔离主机”,主机隔离成功后再联系技术支持退订节点。
sert/bulk_insert来将数据写入Hudi表。为了能够在文件大小和入湖速度之间进行权衡,Hudi提供了一个hoodie.parquet.small.file.limit配置来设置最小文件大小。用户可以将该配置设置为“0”,以强制新数据写入新的文件组,或设置为更高的值以确
是,执行11。 否,执行10。 修改该端口号为ZooKeeper端口号,重启ClickHouseServer实例,查看告警是否消失。 是,操作结束。 否,执行11。 重启实例期间实例不可用,当前实例节点的ClickHouse业务会执行失败。 收集故障信息 在FusionInsight Manager界面,选择“运维
修改副本节点AZ 以客户端安装用户,登录安装客户端的节点。执行以下命令,切换到客户端安装目录。 cd {客户端安装路径} 执行以下命令配置环境变量。 source bigdata_env 执行以下命令进行用户认证(普通模式跳过此步骤)。 kinit 组件业务用户 执行以下命令登录客户端工具。 zkCli
Knox高出阈值的拓扑存在连接满的可能,连接满后无法正常提供请求转发功能,影响整个MRS使用。 可能原因 用户大量使用Hue或者Manager,默认设置的Knox最大连接数较少。 处理步骤 以root用户分别登录OMS主节点和备节点。 在主备OMS节点的gateway-site.xml文件中增加以下配置,适当增加线程池。
选择“集群 > 待操作集群的名称 > 服务 > Hive > 实例”,勾选上报告警IP对应的实例,选择“更多 > 重启实例”。 正在重启的Hive实例无法对外提供服务,该实例上正在执行的SQL任务可能失败。 重启完成后,等待5分钟,查看告警是否消除。 是,处理完毕。 否,执行10。
(手动修改客户端机器或者集群的时间),时间差小于5分钟。 MRS集群的时间可通过登录主管理节点(集群管理IP地址所在节点)运行date命令查询。 下载MapReduce客户端程序到客户端机器中。 登录MRS Manager系统。 选择“服务管理 > 下载客户端”,下载客户端程序到客户端机器。
Nimbus”,进入Nimbus实例页面。 查看“角色”中是否存在且仅存在一个状态为主的Nimbus节点。 是,执行13。 否,执行10。 勾选两个Nimbus角色实例,选择“更多 > 重启实例”,查看是否重启成功。 是,执行11。 否,执行13。 重新登录FusionInsight Manager管理界面,选择“集群
处理步骤 检查ClickHouse实例metrika.xml配置是否正常 在FusionInsight Manager页面告警列表中,单击此告警所在行的,查看该告警的主机名。在“主机”页面,根据对应的主机名,查看主机IP。 登录ClickHouse服务异常的实例主机节点,进入当前Clic
修复Manager nodeagent 前提条件 已获取FusionInsight Manager登录地址及admin账号。 操作步骤 使用omm用户登录到主OMS节点,备份$NODE_AGENT_HOME/bin/nodeagent_ctl.sh文件。 cp $NODE_AGE