检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-27003 DBService主备节点间心跳中断 告警解释 DBService主节点或备节点超过7秒未收到对端的心跳消息后,系统产生告警。 当心跳恢复后,该告警恢复。 告警属性 告警ID 告警级别 是否自动清除 27003 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
使用jstack命令查看进程堆栈提示“well-known file is not secure” 问题背景与现象 使用jstack命令查看进程堆栈信息时报以下错误: omm@hadoop02:~> jstack 62517 62517: well-known file is not
ALM-12110 获取ECS临时ak/sk失败 告警解释 meta每五分钟调用ECS接口获取AK/SK信息,并缓存在meta中,在AK/SK过期失效之前会再次调用ECS接口更新AK/SK,如果连续三次调用接口失败,会产生该告警。 当meta服务调用ECS接口成功时,告警清除。 告警属性
ALM-12053 主机文件句柄使用率超过阈值 告警解释 系统每30秒周期性检测主机文件句柄使用率,并把实际使用率和阈值(系统默认阈值80%)进行比较,当检测到主机文件句柄使用率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称
用户认证及权限类 登录MRS集群Manager的用户是什么? 集群内用户密码的过期时间如何查询和修改? 如果不开启Kerberos认证,MRS集群能否支持访问权限细分? 如何给集群内用户添加租户管理权限? Hue WebUI有配置账号权限的功能吗? 为什么IAM子账号添加了MRS权限却无法在控制台提交作业?
ALM-18002 NodeManager心跳丢失 告警解释 系统每30秒周期性检测丢失的NodeManager节点,并把丢失的节点数和阈值相比较。“丢失的节点数”指标默认提供一个阈值。当检测到“丢失的节点数”的值超出阈值时产生该告警。 用户可通过选择“集群 > 待操作集群的名称
ALM-12067 tomcat资源异常 告警解释 HA每85秒周期性检测Manager的Tomcat资源。当HA连续2次都检测到Tomcat资源异常时,产生该告警。 当HA检测到Tomcat资源正常后,告警恢复。 Tomcat资源为单主资源,一般资源异常会导致主备倒换,看到告警
ALM-12103 executor资源异常 告警解释 HA每30秒周期性检测Manager的executor资源。当HA连续2次检测到executor资源异常时,产生该告警。 当HA检测到executor资源正常后,告警恢复。 executor资源为单主资源,一般资源异常会导致
ALM-26053 Storm Slot使用率超过阈值 告警解释 系统每60秒周期性检测Slot使用率,并把实际Slot使用率和阈值相比较。当检测到Slot使用率高于阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置”修改阈值。 当Slot使用率小于或等于阈值时,告警恢复。
配置MRS集群远程运维 当用户使用集群过程中出现问题需要华为云支持人员协助解决时,用户可先联系华为云支持人员,再通过运维授权功能授权华为云支持人员访问用户机器的权限用于定位问题,或通过“日志共享”功能提供特定时间段内的日志给华为云支持人员以便定位问题。 开启MRS集群远程运维授权
签发Flink证书样例 将该样例代码生成generate_keystore.sh脚本,放置在Flink客户端的bin目录下。 #!/bin/bash KEYTOOL=${JAVA_HOME}/bin/keytool KEYSTOREPATH="$FLINK_HOME/conf/"
ALM-12071 httpd资源异常 告警解释 HA每120秒周期性检测Manager的httpd资源。当HA连续10次检测到httpd资源异常时,产生该告警。 当HA检测到httpd资源正常后,告警恢复。 httpd资源为单主资源,一般资源异常会导致主备倒换,看到告警时,基本
ALM-12049 网络读吞吐率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测网络读吞吐率,并把实际吞吐率和阈值(系统默认阈值80%)进行比较,当检测到网络读吞吐率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 > 设备 > 主机
ALM-12050 网络写吞吐率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测网络写吞吐率,并把实际吞吐率和阈值(系统默认阈值80%)进行比较,当检测到网络写吞吐率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 > 设备 > 主机
访问Kudu的WebUI 用户可以通过Kudu的WebUI,在图形化界面查看Kudu作业的相关信息。 前提条件 已安装Kudu服务的集群。 访问KuduMaster WebUI(MRS 3.x及之后版本) 登录Manager页面,请参见访问集群Manager。 选择“集群 > 服务
如何判断某个服务是否使用了Ranger鉴权 问题 如何判断某个支持使用Ranger鉴权的服务当前是否启用了Ranger鉴权? 回答 登录FusionInsight Manager,选择“集群 > 服务 > 服务名称”,在服务详情页上继续单击“更多”,查看“启用Ranger鉴权”是否为可单击?
如何判断某个服务是否使用了Ranger鉴权 问题 如何判断某个支持使用Ranger鉴权的服务当前是否启用了Ranger鉴权? 回答 登录FusionInsight Manager,选择“集群 > 服务 > 服务名称”,在服务详情页上继续单击“更多”,查看“启用Ranger鉴权”是否为可单击?
ALM-12055 证书文件即将过期 告警解释 系统每天二十三点检查一次当前系统中的证书文件,如果当前时间距离证书过期时间小于30天,则证书文件即将过期,产生该告警。 当重新导入一个正常证书,并且状态不为即将过期,在下一个整点触发告警检测机制后,该告警恢复。 MRS 3.2.0及之后版本告警检测周期为:每小时整点。
ALM-26051 Storm服务不可用 告警解释 系统按照30秒的周期检测Storm服务是否可用,当集群全部的Nimbus节点异常时,Storm服务不可用,系统产生此告警。 当Storm服务恢复正常,告警自动清除。 告警属性 告警ID 告警级别 是否自动清除 26051 紧急 是
ALM-12091 disaster资源异常 告警解释 HA每86秒周期性检测Manager的disaster资源。当HA连续10次检测到disaster资源异常时,产生该告警。 当HA检测到disaster资源正常后,告警恢复。 disaster资源为单主资源,一般资源异常会导