检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据迁移到MRS前网络准备 数据迁移网络方案说明 进行大数据迁移时,需要保证源端集群和目的端集群之间的网络互通,例如使用hadoop distcp命令跨集群复制数据时需要所有DataNode节点网络互通。根据不同的迁移场景需要使用不同的方式先打通两套集群之间网络连接。 客户线下数
ALM-12015 设备分区文件系统只读 告警解释 系统按60秒周期进行扫描,如果检测到挂载服务目录的设备分区变为只读模式(如设备有坏扇区、文件系统存在故障等原因),则触发此告警。 系统如果检测到挂载服务目录的设备分区的只读模式消失(比如文件系统修复为读写模式、设备拔出、设备被重新格式化等原因),则告警恢复。
产生告警的角色名称。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 数据库进入只读模式,业务数据丢失。 数据库进入只读模式,上层服务写业务操作相关数据丢失。 可能原因 磁盘配置无法满足业务需求,磁盘使用率达到上限。 处理步骤 检查磁盘使用率是否达到上限
Topic中接入消息 操作场景 用户可以根据业务需求,通过Kafka客户端或KafkaUI查看当前消费情况。 本章节内容适用于MRS 3.x及后续版本。 前提条件 如果当前使用Kafka客户端,需要满足以下条件: MRS集群管理员已明确业务需求,并准备一个系统用户。 已安装Kafka客户端。
ALM-12040 系统熵值不足(2.x及以前版本) 告警解释 每天零点系统检查熵值,每次检查都连续检查五次,首先检查是否启用并正确配置了rng-tools工具,如果没有配置,则继续检查当前熵值,如果五次均小于500,则上报故障告警。 当检查到真随机数方式已经配置或者伪随机数方式
ALM-12078 omm密码过期 告警解释 系统每天零点开始,每8小时检测当前系统中omm密码是否过期,如果密码过期,则发送告警。 当系统中omm密码过期的期限修改,当前状态为正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12078 重要 是 告警参数 参数名称
本章节仅适用于MRS 3.2.0及之后版本。 操作场景 场景一:随着MRS ClickHouse业务数量的增长,原有集群的存储和计算资源已不满足业务需求,需要对集群进行拆分,将部分用户业务及数据库数据迁移到新建集群中。 场景二:MRS ClickHouse集群后端主机所在机房需要搬
--show-details 该命令包含均衡方案的生成和执行两部分,其中--show-details为可选参数,表示是否打印方案明细,--throttle表示均衡方案执行时的带宽限制,单位:bytes/sec, --enable-az-aware为可选参数,表明生成均衡方案时,开启跨AZ特性,使用此
步骤三:创建OBS文件系统 登录OBS控制台。 选择“并行文件系统 > 创建并行文件系统”。 填写文件系统名称,例如“mrs-demo01”。 其他参数请根据需要填写。 图5 创建并行文件系统 单击“立即创建”。 在OBS控制台并行文件系统列表中,单击文件系统名称进入详情页面。 在
service 检查系统熵值。 手动检查操作系统熵值。 以root用户登录节点,执行cat /proc/sys/kernel/random/entropy_avail命令,检查操作系统熵值是否满足集群的安装要求(不低于100)。 是,操作系统熵值不低于100,执行9。 否,操作系统熵值低于1
config/consumer.properties --show-details 该命令包含均衡方案的生成和执行两部分,其中--show-details为可选参数,表示是否打印方案明细,--throttle表示均衡方案执行时的带宽限制,单位:bytes/sec。 使用--run命令执行节点退服:
hadoop删除文件时会将文件先移动到.Trash目录,若该目录没有权限则出现403报错。 解决方法 方案一: 使用hadoop fs -rm -skipTrash命令来删除文件。 方案二: 在集群对应的委托中添加访问.Trash目录的权限。 在集群“概览”页签中,查询并记录集群所绑定的委托名称。
ZooKeeper的quorumpeer实例业务IP: ZooKeeper服务所有quorumpeer实例业务IP。登录FusionInsight Manager,选择“集群 > 服务 > ZooKeeper > 实例”,可查看所有quorumpeer实例所在主机业务IP地址。 ZooKeeper客户端端口号:
删除MRS集群用户 根据业务需要,管理员应在Manager删除不再使用的系统用户。 用户删除后,已经发放的TGT在24小时内仍然有效,用户可以使用该TGT继续进行安全认证并访问系统。 如新建用户与已删除用户同名,则会继承已删除用户的拥有的所有Owner权限。建议根据实际业务需求决定是否删除
@@Test@123 修改系统域名后,系统管理员在修改域名以前添加的“机机”用户,请重新下载keytab文件。 修改系统域名后,请重新下载并安装集群客户端。 修改系统域名后,如果有运行中的HetuEngine计算实例,需要重启HetuEngine的计算实例。 前提条件 系统管理员已明确业务需求,并规划好不同系统的域名。
硬盘亚健康检测和故障处理,对业务不造成实际影响。 自动处理文件系统的故障,自动恢复受影响的业务。 自动处理进程和节点的故障,自动恢复受影响的业务。 自动处理网络故障,自动恢复受影响的业务。 数据备份与恢复 为应对数据丢失或损坏对用户业务造成不利影响,在异常情况下快速恢复系统,MRS根据用户业务的需要提供全量备份、增量备份和恢复功能。
ALM-12015 设备分区文件系统只读(2.x及以前版本) 告警解释 系统周期性进行扫描,如果检测到挂载服务目录的设备分区变为只读模式(如设备有坏扇区、文件系统存在故障等原因),则触发此告警。 系统如果检测到挂载服务目录的设备分区的只读模式消失(比如文件系统修复为读写模式、设备拔出、设备被重新格式化等原因),则告警恢复。
防止因HBase的系统表目录或者文件损坏导致HBase服务不可用,或者系统管理员需要对HBase系统表进行重大操作(如升级或迁移等)时,需要对HBase元数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 系统管理员可以通过FusionInsight
来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 触发条件 告警触发的条件。 对系统的影响 业务延迟:主机磁盘IO写入等待时长过高时,可能会导致业务进程运行处理缓慢、业务延迟。 业务失败:磁盘IO写入等
防止因HBase的系统表目录或者文件损坏导致HBase服务不可用,或者系统管理员需要对HBase系统表进行重大操作(如升级或迁移等)时,需要对HBase元数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 系统管理员可以通过FusionInsight