检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
NameNode节点存在ALM-12027主机PID使用率超过阈值告警 问题背景与现象 3.1.2及之前的3.x版本集群,NameNode节点存在ALM-12027主机PID使用率超过阈值告警,节点Java进程可能出现“unable to create new native thread”报错。
隔离MRS集群节点对系统的影响 主机隔离后该主机上的所有角色实例将被停止,且不能对主机及主机上的所有实例进行启动、停止和配置等操作。 主机隔离后无法统计并显示该主机硬件和主机上实例的监控状态及指标数据。 主机隔离后部分服务的实例不再工作,服务的配置状态可能过期。 待操作节点的SSH端口
usionInsight Manager,选择“集群 > 服务 > ZooKeeper > 实例”,可查看所有quorumpeer实例所在主机业务IP地址。 ZooKeeper客户端端口号 登录FusionInsight Manager,选择“集群 > 服务 > ZooKeepe
ALM-12064 主机随机端口范围配置与集群使用端口冲突 告警解释 系统每一个小时检查一次主机随机端口配置范围是否与集群使用端口范围冲突,如果有冲突,则发送此告警。待客户重新修改该主机的随机端口范围配置到正常范围,该告警会自动清除。 告警属性 告警ID 告警级别 是否自动清除 12064
c40a9 说明: 用户需要获取SSL证书,放置到Flink客户端中。具体操作可参考签发Flink证书样例。 使用MRS客户端预制“generate_keystore.sh”脚本获取SSL证书有效期为5年。参考签发Flink证书样例获取的SSL证书有效期为10年。 若要关闭默认的
b1有6台主机,物理机架Rb2有33台主机,物理机架Rb3有18台主机,物理机架Rb4有3台主机。 根据以上的“机架分配策略”,设置每个逻辑机架包含20个主机,具体分配如下: 逻辑机架 /default/racka1: 包含物理机架Ra1的11台主机,Ra2的9台主机。 逻辑机架
ALM-12028 主机D状态进程数超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测主机中omm用户D状态进程数,并把实际进程数和阈值相比较。主机D状态进程数默认提供一个阈值。当检测到进程数超出阈值时产生该告警。 当主机中omm用户D状态进程数小于或等于阈值时,告警恢复。
系统每30秒周期性检测主机文件句柄使用率,并把实际使用率和阈值(系统默认阈值80%)进行比较,当检测到主机文件句柄使用率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 主机状态 > 主机文件句柄使用率 > 主机文件句柄使用率”修改阈值。
节点隔离 当用户发现某个主机出现异常或故障,无法提供服务或影响集群整体性能时,可以临时将主机从集群可用节点排除,使客户端访问其他可用的正常节点。 在为MRS集群安装补丁的场景中,也支持排除指定节点不安装补丁。 隔离主机仅支持隔离非管理节点。 主机隔离后该主机上的所有角色实例将被停止
ALM-12027 主机PID使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测PID使用率,并把实际PID使用率和阈值进行比较,PID使用率默认提供一个阈值。当检测到PID使用率超出阈值时产生该告警。 当主机PID使用率小于或等于阈值时,告警恢复。 告警属性 告警ID
ALM-45653 Flink HA证书文件失效 本章节适用于MRS 3.3.0及以后版本。 告警解释 Flink首次或者每天01:00:00开始健康检查时,检查当前系统中的HA证书文件是否失效(证书是否存在,证书格式是否正确),如果证书文件失效,产生该告警。证书文件恢复,告警恢复。 告警属性
keytab”文件与“krb5.conf”文件。 生成IoTDB客户端SSL证书 若集群开启了SSL加密传输且本地Windows或Linux环境首次运行IoTDB样例代码,需执行以下操作生成客户端SSL证书。 以客户端安装用户,登录安装客户端的节点。 切换到IoTDB客户端安装目录,例如:/opt/client。
表1 下载到远端节点配置参数 参数名称 样例 参数说明 主机IP x.x.x.x 远端节点的IP地址。 说明: 远端节点的平台类型需要与所下载客户端的平台类型一致,否则可能导致安装客户端失败。 主机端口 22 远端节点的主机端口。 登录用户名称 xxx 登录远端节点的用户名称。 远端节点用户需要对下载路径具有写权限。
更换HA证书 HA证书用于主备进程与高可用进程的通信过程中加密数据,实现安全通信。该任务指导用户为Manager完成主备管理节点的HA证书替换工作,以确保产品安全使用。适用于以下场景: 首次安装好集群以后,需要更换企业证书。 企业证书有效时间已过期或安全性加强,需要更换为新的证书。
在“客户端类型”选择“完整客户端”。 在“下载路径”选择“远端主机”。 将“主机IP”设置为ECS的IP地址,设置“主机端口”为“22”,并将“保存路径”设置为“/tmp”。 如果使用SSH登录ECS的默认端口“22”被修改,请将“主机端口”设置为新端口。 “保存路径”最多可以包含256个字符。
3版本为例,其他版本请替换成具体集群版本号。参考本指导完成证书更新后,请手动清除证书文件失效或证书文件即将过期告警。 Ranger证书更新后,证书有效期为10年。 Ranger证书过期后,Ranger WEBUI还能够继续访问,功能不影响。仅在访问前有不信任的证书提示。 如果集群未安装
启停MRS集群节点上所有角色 当主机(节点)故障异常时,用户可能需要在MRS停止主机上的所有角色,对主机进行维护检查。故障清除后,启动主机上的所有角色恢复主机业务。 操作MRS集群前提条件 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在集群详情页的“概览”页签,单击“
ALM-24010 Flume证书文件非法或已损坏 本章节适用于MRS 3.2.0及以后版本。 告警解释 Flume每隔一个小时,检查当前Flume证书文件是否合法(证书是否存在,证书格式是否正确),如果证书文件非法或已损坏,产生该告警。证书文件恢复合法时,告警恢复。 告警属性 告警ID
检查系统提示信息,是否用户已过期。 查找“Password expires”对应值,查看密码设置是否即将过期。 查找“Account expires”对应值,查看用户设置是否即将过期。 如果参数值为“never”,则代表永不过期;如果为日期值,则查看是否在15天内过期。 是,执行1.d。
原因分析 可能是两台主机处于不同VPC网络中。 密码填写错误。 远端主机开启了防火墙。 处理步骤 两台主机处于不同VPC网络中 放开远端主机的22端口。 密码填写错误 请检查密码是否正确,密码中不能有特殊符号。 远端主机开启防火墙 先将这个MRS集群客户端下载到服务器端主机,然后通过Linux提供的scp命令复制到远端主机。