检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
对系统的影响 当前FE实例不可用,无法响应客户端请求。 可能原因 FE实例由于某种原因出现故障或被重启。 处理步骤 登录FusionInsight Manager,选择“运维 > 告警 > 告警”,选中“告警ID”为“50225”的告警,查看“定位信息”中的角色名并确定实例的IP地址。 选择“集群
IP地址”为MySQL实例IP地址,需要和MRS集群网络互通 。 用户名和密码为登录MySQL的连接用户名和密码。 配置文件中包含认证密码信息可能存在安全风险,建议当前场景执行完毕后删除相关配置文件或加强安全管理。 分别上传配置文件到Master节点(Coordinator实例所在节点)的
单击服务视图中指定的服务名称,并选择“实例”页签。 单击需要查看配置的实例名称,在概览页面的“配置文件”区域内,系统会显示该实例相关的配置文件列表。 图1 查看实例配置文件 单击要查看的配置文件的名称,可查看配置文件内具体的配置参数值内容。 如需获取该配置文件,可单击“下载至本地”按钮,将该配置文件内容下载到本地PC。
关的业务数据进行删除。 MRS集群配置存算分离后,组件可以对接访问OBS文件系统,同时也可以继续访问集群内的HDFS文件系统,具体请参考配置MRS集群通过IAM委托对接OBS。 存算分离功能使用流程: 配置存算分离集群。 请选择如下其中一种配置即可(推荐使用委托方式)。 通过为M
在“计算实例”页签,单击对应计算实例所属的租户名的“配置”,查看该计算实例的资源配置是否合理(默认资源配置为最小化配置,可以根据实际需求调节)。 是,执行8。 否,执行5。 返回计算实例列表,单击“停止实例”,根据界面提示停止计算实例。 停止计算实例会影响提交到该计算实例上的业务。
图1 退服实例 实例退服操作未完成时在其他浏览器窗口重启集群中相应服务,可能导致MRS提示停止退服,实例的“操作状态”显示为“已启动”。实际上后台已将该实例退服,请重新执行退服操作同步状态。 通过Manager退服或入服实例 登录Manager页面,进入待操作组件实例页签。 MRS
选择“集群 > 服务 > 服务名称 > 实例”,单击需要查看日志的实例名称,进入实例状态页面。 在“日志”区域,单击要查看的日志文件名称,即可在线预览对应日志内容。 在“主机”页面单击主机名称,在主机详情页面的“实例”区域,也可查看该主机上所有角色实例的日志文件。 日志内容默认最多显示
ge。 D表示内存、CPU比,以具体数字表示,例如4表示内存和CPU的比值为4。 ECS规格 表1 通用计算增强型(C型)弹性云服务器的规格 类型 vCPU 内存(GB) 规格名称 虚拟化类型 C3型 32 64 c3.8xlarge.2 KVM C3型 16 64 c3.4xlarge
WebUI”后的链接,进入HSConsole界面。 在计算实例页面,查看是否存在状态为“故障”的计算实例。 是,执行13。 否,执行14。 在实例的“操作”列中,单击“启动”,等待实例启动完成。 在告警列表中,查看“ALM-45001 HetuEngine计算实例故障”告警是否清除。 是,处理完毕。 否,执行15。
在购买集群页面,选择“自定义购买”页签。 在“自定义购买”页签,配置以下参数。 基础配置: 计费模式:选择“按需计费”。 区域:请根据需要选择区域。 集群配置: 集群名称:可以设置为系统默认名称,但为了区分和记忆,建议带上项目拼音缩写或者日期等。 集群类型:选择“自定义”。 版本类型:选择“LTS版”或“普通版”。
如果这个文件中的值大于3就会启动失败,NodeAgent会一直尝试重启该实例,此时仍会失败而且这个值每启动失败一次就会加1。 解决办法 登录Manager管理界面。 停止该DBServer实例。 使用omm用户登录到DBServer实例异常的节点。 修改“${BIGDATA_HOME}/MRS
在“计算实例”页签,单击对应计算实例所属的租户名的“配置”,查看该计算实例的资源配置是否合理(默认资源配置为最小化配置,可以根据实际需求调节)。 是,执行8。 否,执行5。 返回计算实例列表,单击“停止实例”,根据界面提示停止计算实例。 停止计算实例会影响提交到该计算实例上的业务。
HetuEngine计算实例启动后状态为故障 问题 启动HetuEngine计算实例后,大约过了30秒,计算实例直接进入故障状态。 回答 HetuEngine启动计算实例时,会给Yarn发送命令启动对应的application,若30秒内没有接收到Yarn的响应消息,则因超时结束此次请求。
等待几分钟后,在告警列表中查看该告警是否清除。 是,处理完毕。 否,执行12。 检查RegionServer配置。 在FusionInsight Manager首页,选择“集群 > 服务 > HBase > 配置 > 全部配置”,查看配置项“hbase.wal.hsync”和“hbase.hfile.hsync”参数值是否都为“true”。
HBase > 实例”,勾选受影响的“RegionServer”实例,选择“更多 > 滚动重启 ”,在弹出的界面中输入用户和密码,单击“确定”,在“滚动重启实例”界面单击“确定”,等待滚动重启完成,使其生效。 配置生效后,在告警列表中,查看本告警是否清除。 是,处理完毕。 否,执行5。
Manager。 单击“服务管理 > HBase > 服务配置”,“参数类别”类型选择“全部配置”,然后在左边窗口选择“HMaster > 系统”。 在“hbase.coprocessor.master.classes”配置项中增加值“org.apache.hadoop.hbase
在FusionInsightManager首页,选择“集群 > Impala > 实例 > 告警上报的Impala实例 > 更多 > 重启实例”,查看告警是否清除。 是,操作结束。 否,执行5。 重启全部实例,服务不可用。重启单个实例,会导致当前实例节点正在执行的任务失败,服务可用。 收集故障信息 在主备集群的FusionInsight
在“计算实例”页签,单击对应计算实例所属的租户名的“配置”,查看该计算实例的资源配置是否合理(默认资源配置为最小化配置,可以根据实际需求调节)。 是,执行8。 否,执行5。 返回计算实例列表,单击“停止实例”,根据界面提示停止计算实例。 停止计算实例会影响提交到该计算实例上的业务。
在修改了大数据组件的配置项后,需要重启对应的组件来使得配置生效,使用普通重启方式会并发重启所有服务或实例,可能引起业务中断。 为了确保服务重启过程中,尽量减少或者不影响业务运行,可以通过滚动重启来按批次重启服务或实例(对于有主备状态的实例,会先重启备实例,再重启主实例)。 与普通重启
图表”,在“图表分类”中选择“操作统计”,查看“P999 WAL Sync操作延迟-所有实例”监控值是否超过500ms。 是,执行21。 否,执行22。 单击“实例”,勾选上报告警的RegionServer实例,选择“更多 > 重启实例”,可快速恢复,还需执行22联系运维人员排查可能存在问题的磁盘。 在RegionServer重启期间,