检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
对端DBService HA名称。 对系统的影响 DBService主备间心跳中断时只有一个节点提供服务,一旦该节点故障,再无法切换到备节点,就会服务不可用。 可能原因 主备DBService节点间链路异常。 处理步骤 检查主备DBService服务器间的网络是否正常。 登录MRS集群详情页面,选择“告警管理”。
YARN中的ResourceManager负责整个集群的资源管理和任务调度,在Hadoop2.4版本之前,ResourceManager在YARN集群中存在单点故障的问题。YARN高可用性方案通过引入冗余的ResourceManager节点的方式,解决了这个基础服务的可靠性和容错性问题。 图1 ResourceManager高可用性实现架构
HBase容灾集群主备倒换 操作场景 当前环境HBase已经是容灾集群,因为某些原因,需要将主备集群互换,即备集群变成主集群,主集群变成备集群。 对系统的影响 主备集群互换后,原先主集群将不能再写入数据,原先备集群将变成主集群,接管上层业务。 操作步骤 确保上层业务已经停止 确保
原因分析 从错误截图可以看到报错是no route to host,且报错信息里面有192.168的ip,也即客户端节点到集群的DN节点的内网路由不通,导致上传文件失败。 处理步骤 在客户端节点的客户端目录下,找到HDFS的客户端配置目录hdfs-site.xml文件,在配置文件中增加配置项dfs
HBase容灾集群主备倒换 操作场景 当前环境HBase已经是容灾集群,因为某些原因,需要将主备集群互换,即备集群变成主集群,主集群变成备集群。 本章节适用于MRS 3.x及之后版本。 对系统的影响 主备集群互换后,原先主集群将不能再写入数据,原先备集群将变成主集群,接管上层业务。
ResourceManager进行主备切换后,任务中断后运行时间过长 问题 在MapReduce任务运行过程中,ResourceManager发生主备切换,切换完成后,MapReduce任务继续执行,此时任务的运行时间过长。 回答 因为ResourceManager HA已启用,但是Work-preserving
ResourceManager进行主备切换后,任务中断后运行时间过长 问题 在MapReduce任务运行过程中,ResourceManager发生主备切换,切换完成后,MapReduce任务继续执行,此时任务的运行时间过长。 回答 因为ResourceManager HA已启用,但是Work-preserving
过200。 部署负载均衡组件,查询基于负载均衡组件进行,避免单点查询压力太大影响性能。 ClickHouse支持连接集群中的任意节点查询,如果查询集中到一台节点,可能会导致该节点的压力过大并且可靠性不高。建议使用ClickHouseBalancer或者其他负载均衡服务,均衡查询负载,提升可靠性。
<process_name>-<SSH_USER>-<DATE>-<PID>-gc.log 垃圾回收日志。 yarn-haCheck.log ResourceManager主备状态检测日志。 yarn-service-check.log Yarn服务健康状态检查日志。 yarn-start-stop.log Yarn服务启停操作日志。
对于分析的结果,可以写回成TsFile文件。 IoTDB和TsFile还提供了相应的客户端工具,满足用户以SQL形式、脚本形式和图形形式写入和查看数据的各种需求。 IoTDB服务包括IoTDBServer(DataNode)和ConfigNode两种角色。由于社区版角色名称DataNode和HDFS角色同名,因此
historyserver-<SSH_USER>-<DATE>-<PID>-gc.log MR服务垃圾回收日志。 jhs-haCheck.log MR实例主备状态检查日志。 yarn-start-stop.log MR服务启停操作日志。 yarn-prestart.log MR服务启动前集群操作的记录日志。
节每个节点的可用内存、CPU资源及本地磁盘的配置进行性能调优。 具体包括以下配置项: 可用内存 CPU虚拟核数 物理CPU使用百分比 内存和CPU资源的协调 本地磁盘 操作步骤 如果您需要对参数配置进行调整,具体操作请参考修改集群服务配置参数。 可用内存 除了分配给操作系统、其他
密码并申请crt、cer、cert和pem格式证书文件,以及key和pem格式密钥文件。申请的证书需要有签发功能。 更换HA证书(MRS 3.x及之后版本) 以omm用户登录主管理节点。 选择证书和密钥文件的生成方式: 若由证书中心生成,请在主备管理节点“${OMS_RUN_PA
无法同步集群中HBase的数据到备集群,同步数据积压,导致大量主备数据不一致,使得容灾主备倒换或者双读从备集群读取不到最新的数据。如果持续不处理,还会导致主集群的存储空间以及ZooKeeper节点被大量积压,最终导致主集群服务故障。 可能原因 备集群HBase服务异常。 网络异常。
ourceManager WebUI、刷新队列、设置NodeLabel、主备倒换等)的权限。 队列管理员:拥有在YARN集群上所管理队列的修改和查看权限。 普通用户:拥有在YARN集群上对自己提交应用的修改和查看权限。 自研超级调度器Superior Scheduler原理 Superior
zookeeper.session.timeout.ms 网络异常。 在hosts文件中没有配置主机名和IP的对应关系,导致使用主机名进行访问时,无法获取信息。 在hosts文件中添加对应的主机名和IP的对应关系。 Linux Windows 父主题: 使用Kafka
当HA检测到Tomcat资源正常后,告警恢复。 Tomcat资源为单主资源,一般资源异常会导致主备倒换,看到告警时,基本已经主备倒换,并在新主环境上启动新的Tomcat资源,告警恢复。该告警用于提示用户,Manager主备倒换的原因。 MRS 3.3.1及之后版本,告警名称从“tomcat资源异常”变成“Manager
该告警。 当HA检测到ACS资源正常后,告警恢复。 ACS资源为单主资源,一般资源异常会导致主备倒换,看到告警时,基本已经主备倒换,并在新主环境上启动新的ACS资源,告警恢复。该告警用于提示用户,Manager主备倒换的原因。 MRS 3.3.1及之后版本,告警名称从“acs资源异常”变成“Manager
当HA检测到httpd资源正常后,告警恢复。 httpd资源为单主资源,一般资源异常会导致主备倒换,看到告警时,基本已经主备倒换,并在新主环境上启动新的httpd资源,告警恢复。该告警用于提示用户,Manager主备倒换的原因。 告警属性 告警ID 告警级别 是否自动清除 12071
当HA检测到floatip资源正常后,告警恢复。 floatip资源为单主资源,一般资源异常会导致主备倒换,看到告警时,基本已经主备倒换,并在新主环境上启动新的floatip资源,告警恢复。该告警用于提示用户,Manager主备倒换的原因。 告警属性 告警ID 告警级别 是否自动清除 12072