检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
过200。 部署负载均衡组件,查询基于负载均衡组件进行,避免单点查询压力太大影响性能。 ClickHouse支持连接集群中的任意节点查询,如果查询集中到一台节点,可能会导致该节点的压力过大并且可靠性不高。建议使用ClickHouseBalancer或者其他负载均衡服务,均衡查询负载,提升可靠性。
historyserver-<SSH_USER>-<DATE>-<PID>-gc.log MR服务垃圾回收日志。 jhs-haCheck.log MR实例主备状态检查日志。 yarn-start-stop.log MR服务启停操作日志。 yarn-prestart.log MR服务启动前集群操作的记录日志。
各个角色对应的权限如下: 集群运维管理员:拥有在YARN集群上执行管理操作(如访问ResourceManager WebUI、刷新队列、设置NodeLabel、主备倒换等)的权限。 队列管理员:拥有在YARN集群上所管理队列的修改和查看权限。 普通用户:拥有在YARN集群上对自己提交应用的修改和查看权限。
产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 无法同步集群中HBase的数据到备集群,导致主备集群数据不一致。 可能原因 备集群HBase服务异常。 网络异常。 处理步骤 观察告警是否自动修复。 登录MRS集群详情页面,选择“告警管理”。
HBase容灾集群主备倒换 操作场景 当前环境HBase已经是容灾集群,因为某些原因,需要将主备集群互换,即备集群变成主集群,主集群变成备集群。 本章节适用于MRS 3.x及之后版本。 对系统的影响 主备集群互换后,原先主集群将不能再写入数据,原先备集群将变成主集群,接管上层业务。
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 直接内存溢出时可能导致Loader无法对外提供服务,通常会导致IO异常或者Socket异常,会出现因异常频繁主备倒换等问题。 可能原因 该节点Loader实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。
HBase容灾集群主备倒换 操作场景 当前环境HBase已经是容灾集群,因为某些原因,需要将主备集群互换,即备集群变成主集群,主集群变成备集群。 对系统的影响 主备集群互换后,原先主集群将不能再写入数据,原先备集群将变成主集群,接管上层业务。 操作步骤 确保上层业务已经停止 确保
配置HBase主备集群数据自动备份 前提条件 主备集群已经安装并且启动。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 当主集群HBase服务关闭时,Zookeeper和HDFS服务应该启动并运行。 该工具应该由启动HBase进程的系统用户运行。 如
当HA检测到executor资源正常后,告警恢复。 executor资源为单主资源,一般资源异常会导致主备倒换,看到告警时,基本已经主备倒换,并在新主环境上启动新的executor资源,告警恢复。该告警用于提示用户,Manager主备倒换的原因。 告警属性 告警ID 告警级别 是否自动清除 12103 重要
更换HA证书 HA证书用于主备进程与高可用进程的通信过程中加密数据,实现安全通信。该任务指导用户为Manager完成主备管理节点的HA证书替换工作,以确保产品安全使用。适用于以下场景: 首次安装好集群以后,需要更换企业证书。 企业证书有效时间已过期或安全性加强,需要更换为新的证书。
配置HBase主备集群数据自动备份 前提条件 主备集群已经安装并且启动。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 当主集群HBase服务关闭时,ZooKeeper和HDFS服务应该启动并运行。 该工具应该由启动HBase进程的系统用户运行。 如
执行MRS角色实例主备倒换 部分服务的角色以主备高可用的模式进行部署,在需要对主实例进行维护不能提供服务,或者其他维护需要时,可以手动触发实例主备倒换。 执行角色实例主备倒换 登录Manager,详情请参考访问MRS集群Manager。 选择“集群 > 服务”。 MRS 2.x及
当HA检测到disaster资源正常后,告警恢复。 disaster资源为单主资源,一般资源异常会导致主备倒换,看到告警时,基本已经主备倒换,并在新主环境上启动新的disaster资源,告警恢复。该告警用于提示用户,Manager主备倒换的原因。 告警属性 告警ID 告警级别 是否可自动清除 12091 重要
Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 无法同步集群中HBase的数据到备集群,同步数据积压,导致大量主备数据不一致,使得容灾主备倒换或者双读从备集群读取不到最新的数据。如果持续不处理,还会导致主集群的存储空间以及ZooKeeper节点被大量积压,最终导致主集群服务故障。
色同名,因此将DataNode更名为IoTDBServer,如图2所示。 ConfigNode:管理角色,负责DataNode数据分片,负载均衡等。 IoTDBServer(DataNode):存储角色,负责数据存储、查询和写入等功能。 图2 IoTDB分布式架构 IoTDB原理
group)有多个consumer先后启动,就是一个消费者组内有多个consumer同时消费多个partition数据,consumer端也会有负载均衡(consumer个数小于partitions数量时)。 consumer实际上是靠存储在zk中的临时节点来表明针对哪个topic的哪个
/srv/BigData/yarn/data2/nm/containerlogs。这样数据就会存储在所有设置的目录中,一般会是在不同的设备中。为保证磁盘IO负载均衡,需要提供几个路径且每个路径都对应一个单独的磁盘。应用程序的本地化后的日志目录存在于相对路径/application_%{appid}中
由于主备Master节点时间未同步导致ZooKeeper服务不可用 问题背景与现象 MRS集群ZooKeeper服务无法启动,出现ZooKeeper服务不可用告警。 原因分析 以root用户登录主、备Master节点,执行ntpq -p命令查看两节点时间未同步。 解决办法 以ro
Hue Hue发生主备切换 次要 23002 Loader Loader主备倒换 重要 24002 Flume Flume Channel溢出 重要 25001 LdapServer LdapServer主备倒换 次要 27000 DBService DBServer主备倒换 次要 38003
可能原因 FlinkServer的主备实例中,有一个实例处于停止状态。 FlinkServer节点使用的HA浮点网卡配置异常,导致FlinkServer启动故障。 主备FlinkServer节点间链路异常。 处理步骤 检查FlinkServer主备实例状态。 在FusionInsight