检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MRS集群健康检查 执行MRS集群健康检查 执行MRS集群节点健康检查 查看并导出健康检查报告 父主题: MRS集群运维
否,节点间网络互通,检查结束。 检查弹性伸缩是否关闭 登录华为云管理控制台,在“现有集群”列表中选择对应集群,单击“弹性伸缩”。 查看当前集群的弹性伸缩策略是否是关闭状态。 否,请跟业务方确认是否可以关闭,如果可以请关闭弹性伸缩,否则请另择时间进行补丁卸载。 是,弹性伸缩关闭,检查结束。 检查FusionInsight
否,节点间网络互通,检查结束。 检查弹性伸缩是否关闭 登录华为云MRS管理控制台界面,选择对应集群,单击“弹性伸缩”。 查看当前集群的弹性伸缩策略是否是关闭状态 否,请跟业务方确认是否可以关闭,如果可以请关闭弹性伸缩,否则请另择时间进行补丁升级。 是,弹性伸缩关闭,检查结束。 检查是否有正在运行的任务
产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 提示用户证书文件即将过期,如果证书文件过期,则会导致部分功能受限,无法正常使用。 可能原因 系统证书文件(CA证书、HA根证书或者HA用户证书)剩余有效期小于证书的告警阈值。
检查HBase全局二级索引数据一致性 场景介绍 可使用全局二级索引工具检查用户数据和索引数据的一致性,如果索引数据与用户数据不一致,该工具可用于重新构建索引数据。 检查全局二级索引数据一致性 在HBase客户端执行以下命令可检查数据一致性,如果不一致,将重新构建索引数据。一致性检
ALM-24010 Flume证书文件非法或已损坏 本章节适用于MRS 3.2.0及以后版本。 告警解释 Flume每隔一个小时,检查当前Flume证书文件是否合法(证书是否存在,证书格式是否正确),如果证书文件非法或已损坏,产生该告警。证书文件恢复合法时,告警恢复。 告警属性 告警ID
FE Thrift各个方法接收的RPC请求中最长的耗时超过阈值 告警解释 系统每30秒周期性检查FE Thrift各个方法接收的RPC请求中最长的耗时,当检查到该值超出阈值(默认值为5000ms)时产生该告警。 当FE Thrift各个方法接收的RPC请求中最长的耗时低于阈值时,告警清除。
证所需要的文件参数,主要包含keytab文件路径、Kerberos认证的用户名称、Kerberos认证所需要的客户端配置“krb5.conf”文件。 login()方法为调用hadoop的接口执行Kerberos认证,生成TGT票据。 doSth()方法调用hadoop的接口访问
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 证书文件已经失效,对应模块功能受限,无法正常使用。
kinit 提交Oozie任务的用户( 如果集群未启用Kerberos认证(普通模式)请跳过该操作) 检查Share Lib,包括客户端和服务端两种方式。Spark Share Lib仅支持客户端检查。 客户端方式: 检查Oozie核心Share Lib,且执行检查的Oozie客户端所在节点必须安装了一个oozie实例。
说明: 用户需要获取SSL证书,放置到Flink客户端中。具体操作可参考签发Flink证书样例。 使用MRS客户端预制“generate_keystore.sh”脚本获取SSL证书有效期为5年。参考签发Flink证书样例获取的SSL证书有效期为10年。 若要关闭默认的SSL认证方式,需在“flink-conf
-A2找出各队列配置的值,检查每个队列配置的值是否和Manager上看到的一致。并检查所有队列配置的值的总和是否是100。 是,则说明配置正常。 否,则说明配置异常,请执行后续步骤修复。 登录MRS Manager页面,选择“主机管理”。 查找主Master节点,主机名称前带实心五角星的Master节点即为主Master节点。
是,需要详细评估补丁跟非标配置的兼容性。 否,检查结束。 检查集群是否有安装紧急补丁 登录客户集群的主备节点,并进入“/home/omm”。 查看是否存在紧急补丁的目录,比如MRSxxx或者xxxpatch。 是,需要详细评估紧急补丁的兼容性。 否,检查结束。 补丁下载地址 华东-上海一:h
是,需要详细评估补丁跟非标配置的兼容性。 否,检查结束。 检查集群是否有安装紧急补丁 登录客户集群的主备节点,进入“/home/omm”目录。 查看是否存在紧急补丁的目录,比如MRSxxx或者xxxpatch。 是,需要详细评估紧急补丁的兼容性。 否,检查结束。 检查集群是否安装了Doris组件,且是否创建了UDF函数
是,需要详细评估补丁跟非标配置的兼容性。 否,检查结束。 检查集群是否有安装紧急补丁 登录客户集群的主备节点,进入“/home/omm”目录。 查看是否存在紧急补丁的目录,比如MRSxxx或者xxxpatch。 是,需要详细评估紧急补丁的兼容性。 否,检查结束。 父主题: MRS 3
是,需要详细评估补丁跟非标配置的兼容性。 否,检查结束。 检查集群是否有安装紧急补丁 登录客户集群的主备节点,进入“/home/omm”目录。 查看是否存在紧急补丁的目录,比如MRSxxx或者xxxpatch。 是,需要详细评估紧急补丁的兼容性。 否,检查结束。 父主题: MRS 3
是,需要详细评估补丁跟非标配置的兼容性。 否,检查结束。 检查集群是否有安装紧急补丁 登录客户集群的主备节点,进入“/home/omm”目录。 查看是否存在紧急补丁的目录,比如MRSxxx或者xxxpatch。 是,需要详细评估紧急补丁的兼容性。 否,检查结束。 父主题: MRS 3
参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 非Master角色的FE节点不能接收到最新的元数据镜像文件,系统可靠性降低。
ALM-50208 清理历史元数据镜像文件失败的次数超过阈值 告警解释 系统每30秒周期性检查FE节点清理历史元数据镜像文件失败的次数,当检查到失败的次数超出阈值(默认值为1)时产生该告警。 当系统检查到FE节点清理历史元数据镜像文件失败的次数低于阈值时,告警清除。 告警属性 告警ID
参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 FE进程的垃圾回收时间过长,可能影响该FE进程正常提供服务。