检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
HBase基本原理 数据存储使用HBase来承接,HBase是一个开源的、面向列(Column-Oriented)、适合存储海量非结构化数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统。更多关于HBase的信息,请参见:https://hbase
ALM-45434 ClickHouse组件数据表中存在单副本 告警解释 ClickHouse组件开启自定义逻辑集群后,当检测到某个自定义逻辑集群存在单副本时,系统产生此告警。 当检测到自定义逻辑集群使用多副本时,告警自动清除。 告警属性 告警ID 告警级别 是否自动清除 45434
ALM-16052 MetaStore创建表时访问元数据库时延超过阈值 告警解释 系统周期性检测MetaStore创建表时访问元数据库时延,当最近5分钟创建表的平均时延超过阈值时上报告警。 当最近5分钟创建表的平均时延小于阈值时,告警恢复。 该章节适用于MRS 3.5.0及之后版本。
ALM-14004 损坏的HDFS块数量超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测损坏的块数量,并把损坏的块数量和阈值相比较。损坏的块数量指标默认提供一个阈值范围。当检测到损坏的块数量超出阈值范围时产生该告警。 当损坏的块数量小于或等于阈值时,告警恢复。建议使用命令(hdfs
ALM-12102 AZ高可用组件未按容灾需求部署 告警解释 告警模块按照5分钟周期检测AZ高可用组件部署状态。当开启AZ后,支持容灾的组件未按容灾需求部署时产生该告警。组件恢复按容灾需求部署时,告警清除。 告警属性 告警ID 告警级别 是否自动清除 12102 重要 是 告警参数
HBase容灾集群业务切换指导 操作场景 MRS集群管理员可配置HBase集群容灾功能,以提高系统可用性。容灾环境中的主集群完全故障影响HBase上层应用连接时,需要为HBase上层应用配置备集群信息,才可以使得该应用在备集群上运行。 本章节适用于MRS 3.x及之后版本。 对系统的影响
身份认证与访问控制 身份认证 MRS支持安全协议Kerberos,使用LDAP作为账户管理系统,并通过Kerberos服务对账户信息进行安全认证。 Kerberos安全认证原理和认证机制具体介绍请参见安全认证原理和认证机制。 访问控制 MRS提供两种访问控制权限模型:基于角色的权
MRS集群管理概述 MRS管理平台概述 用户可以在集群创建完成后,通过MRS管理控制台或MRS集群Manager查看集群基本信息并对集群进行管理和运维。 MRS管理控制台:用户可以通过MRS管理控制台的集群管理页面,进行集群概览查看、节点管理、组件管理、告警管理、文件管理、作业管理等操作。
ALM-45448 ClickHouse使用Znode数量增长速率过快 本章节仅适用于MRS 3.3.1及之后版本。 告警解释 Clickhouse中元数据信息会存储在Zookeeper上,因此会占用Znode,但是在业务无大的变动的场景下,Znode占用数出现持续陡增,两小时增
配置MRS集群审计日志转储 Manager的审计日志默认保存在数据库中,如果长期保留可能引起数据目录的磁盘空间不足问题,管理员如果需要将审计日志保存到其他归档服务器,可以在FusionInsight Manager设置转储参数及时自动转储,便于管理审计日志信息。 若用户未配置审计
HBase容灾集群业务切换指导 操作场景 MRS集群管理员可配置HBase集群容灾功能,以提高系统可用性。容灾环境中的主集群完全故障影响HBase上层应用连接时,需要为HBase上层应用配置备集群信息,才可以使得该应用在备集群上运行。 对系统的影响 切换业务后,写入备集群的数据默
ALM-18026 Yarn上运行失败的任务数超过阈值 告警解释 告警模块按60秒周期检测Yarn root队列上失败的应用的数量,当root队列上该监控周期内新增的运行失败的应用的数量超过50时,且连续发生3次以上,触发该告警。 告警属性 告警ID 告警级别 是否自动清除 18026
ALM-50401 JobServer中等待执行的任务数超过阈值 告警解释 系统每30秒周期性检测提交到JobServer的作业数量,当等待执行的作业数量超过800时,触发该告警。 告警属性 告警ID 告警级别 是否可自动清除 50401 紧急(默认阈值为900) 重要(默认阈值为800)
ALM-16002 Hive SQL执行成功率低于阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测执行的HiveQL成功百分比,HiveQL成功百分比由一个周期内Hive执行成功的HiveQL数/Hive执行HiveQL总数计算得到。该指标可在Hive服务监控界面查看。
ALM-12031 omm用户或密码即将过期(2.x及以前版本) 告警解释 系统每天零点开始,每8小时检测当前系统中omm用户和密码是否过期,如果用户或密码即将在15天内过期,则发送告警。 当系统中omm用户过期的期限修改或密码重置,且告警处理完成时,告警恢复。 告警属性 告警ID
ALM-12032 ommdba用户或密码即将过期(2.x及以前版本) 告警解释 系统每天零点开始,每8小时检测当前系统中ommdba用户和密码是否过期,如果用户或密码即将在15天内过期,则发送告警。 当系统中ommdba用户过期的期限修改或密码重置,且告警处理完成时,告警恢复。
ALM-12054 证书文件失效(2.x及以前版本) 告警解释 系统在每天二十三点检查当前系统中的证书文件是否失效(即当前集群中的证书文件是否过期,或者尚未生效)。如果证书文件失效,产生该告警。 当重新导入一个正常证书,并且状态不为失效状态,该告警恢复。 告警属性 告警ID 告警级别
ALM-12054 证书文件失效 告警解释 系统每天二十三点检查当前系统中的证书文件是否失效(即当前集群中的证书文件是否过期,或者尚未生效)。如果证书文件失效,产生该告警。 当重新导入一个正常证书,并且状态不为失效状态,在下一个整点触发告警检测机制后,该告警恢复。 MRS 3.2
ALM-12087 系统处于升级观察期 告警解释 系统定时在每天零点查看当前系统是否处于升级观察期,同时检查进入升级观察时间是否超过了为客户预留的升级观察期时间(默认为10天)。当系统处于升级观察期,并且进入升级观察期时间超过了为客户预留的升级观察期时间(默认时间为10天)时,系
ALM-12187 磁盘分区扩容失败 告警解释 系统按60秒周期进行扫描,当检测到磁盘空间扩容后,会进行磁盘分区空间扩容操作,如果磁盘分区扩容失败,则触发此告警。 系统如果检测到磁盘空间扩容后,磁盘分区扩容成功,则告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 12187