检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-50407 JobServer查询作业接口失败率超过阈值 本章节仅适用于MRS 3.5.0及之后版本。 告警解释 系统每30秒周期性检测JobServer中查询失败的接口占比,当失败率超出阈值(默认值为80%)时,触发该告警。 当失败率低于阈值时,告警恢复。 告警属性 告警ID
上个周期运行失败的Yarn任务数超过阈值(2.x及以前版本) 告警解释 上个10min的周期内,运行失败的YARN任务数超过阈值。该告警每10min检测一次,如果上个10min周期内,发生YARN任务运行失败的数量大于设定的阈值时候,会发生该告警。如果在下个10min周期,运行失败的Yarn任务数低于阈值时该告警会自动消除。
ALM-25005 Nscd服务异常 告警解释 系统每60秒周期性检测nscd服务的状态,如果连续4次(3分钟)查询不到nscd进程或者无法获取LdapServer中的用户时,产生该告警。 当进程恢复且可以获取LdapServer中的用户时,告警恢复。 告警属性 告警ID 告警级别
ALM-50207 FE的MySQL端口连接数与允许最大连接数的比值超过阈值 告警解释 系统每30秒周期性检查MySQL端口连接数,当检测到当前连接数与设置的FE最大端口连接数的比值超出阈值(默认值为95%)时产生该告警。当前集群设置的FE最大端口连接数由参数“qe_max_co
MRS集群的节点如何安装主机安全服务? 操作场景 MRS集群中的节点可以使用主机安全服务(Host Security Service,HSS)提供的主机管理、风险预防、入侵检测等功能,识别并管理主机中的信息资产,实时监测主机中的风险并阻止非法入侵行为,帮助企业构建服务器安全体系,降低当前服务器面临的主要安全风险。
ALM-16005 Hive服务进程堆内存使用超出阈值 告警解释 系统每30秒周期性检测Hive堆内存使用率,并把实际的Hive堆内存使用率和阈值相比较。当Hive堆内存使用率超出阈值(默认为最大堆内存的95%)时产生该告警。 用户可通过“运维 >告警 > 阈值设置 > 待操作集群的名称
ALM-18024 Yarn任务挂起内存量超阈值 告警解释 告警模块按60秒周期检测Yarn当前挂起的内存量大小,当Yarn上面挂起的内存量大小超过阈值时,触发该告警。挂起的内存量表示当前所有提交的Yarn应用还没有满足的内存量总和。 告警属性 告警ID 告警级别 是否自动清除 18024
阈值 本章节仅适用于MRS 3.1.5及之后版本。 告警解释 系统通过jmx接口查询资源组的排队任务数即QueuedQueries指标,当检测到资源组排队数大于阈值时产生该告警。 告警属性 告警ID 告警级别 可自动清除 45329 次要 是 告警参数 参数名称 参数含义 ServiceName
如果连续失败的次数超过配置的阈值,则触发上报告警,此时ClickHouse写入分布式表的节点无法正常发送数据文件到远端分片节点。 当系统检测到连续失败的次数低于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 45445 重要 是 变更类型 变更版本 变更描述 变更原因
ClickHouse本地磁盘剩余空间低于冷热分离策略配置阈值 本章节仅适用于MRS 3.3.1及之后版本。 告警解释 系统配置冷热分离功能后,每隔5分钟检测一次当前系统冷热分离策略中配置的本地磁盘的剩余空间,如果低于冷热分离策略中配置的move_factor阈值,系统产生告警。 当本地磁盘剩余
与HDFS的Balancer接口工作方式类似。Mover能够基于设置的数据存储策略,将集群中的数据重新分布。 通过运行Mover,周期性地检测HDFS文件系统中用户指定的HDFS文件或目录,判断该文件或目录是否满足设置的存储策略,如果不满足,则进行数据迁移,使目标目录或文件满足设定的存储策略。
ALM-50228 Doris租户内存使用率超过阈值 告警解释 系统每30秒周期性检查租户BE节点的内存使用率,当检查到该值超出阈值时产生该告警。 当检测到租户BE节点的内存使用率低于阈值时,告警恢复。 该告警仅适用于MRS 3.3.1及之后版本。 告警属性 告警ID 告警级别 是否可自动清除
ALM-50225 FE实例故障 告警解释 系统每30秒周期性检查FE的进程状态,当检查到该值大于0(0表示状态正常,1表示状态异常)时产生该告警。 当系统检测到FE的进程状态正常时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 50225 紧急 是 告警参数 参数名称 参数含义 来源
Doris租户查询并发数超过阈值 告警解释 系统每30秒周期性检查租户FE节点的查询并发数,当检查到该值超出阈值(默认值为90%)时产生该告警。 当检测到FE的查询并发数低于阈值时,告警恢复。 该告警仅适用于MRS 3.3.1及之后版本。 告警属性 告警ID 告警级别 是否可自动清除 50227
系统每30秒周期性检查BE上执行的各类任务中是否存在某种类型的任务失败次数有增长趋势,当检查到该值不等于1(1表示没有增长趋势,0表示有增长趋势)时产生该告警。 当系统检测到BE上执行的各类任务中不存在某种类型的任务失败次数有增长趋势时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 50224 重要
ALM-14001 HDFS磁盘空间使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测HDFS集群磁盘空间使用率,并把实际的HDFS集群磁盘空间使用率和阈值相比较。HDFS集群磁盘使用率指标默认提供一个阈值范围。当HDFS集群磁盘空间使用率超出阈值范围时,产生该告警。
ALM-12037 NTP服务器异常 告警解释 系统每60秒周期性检测NTP服务器的状态,当连续10次监控到NTP服务器异常时产生该告警。 当NTP服务器异常消除时,该告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12037 重要 是 告警参数 参数名称 参数含义 来源
如何关闭MRS集群内节点的防火墙服务? 问: 如何关闭MRS集群内节点的防火墙服务? 答: 以root用户登录集群的各个节点。 检查防火墙服务是否启动。 例如,EulerOS环境下执行systemctl status firewalld.service命令。 关闭防火墙服务。 例如,EulerOS环境下执行systemctl
ALM-12001 审计日志转储失败 告警解释 根据本地历史数据备份策略,集群的审计日志需要转储到第三方服务器上。系统每天凌晨3点开始周期性检测转储服务器,如果转储服务器满足配置条件,审计日志可以成功转储。审计日志转储失败,系统产生此告警。如果第三方服务器的转储目录磁盘空间不足,或
ALM-45435 ClickHouse表元数据不一致 告警解释 检测到分布式表本身,或分布式表对应的本地表的元数据不一致持续180min后,系统产生此告警。 当分布式表本身,或分布式表对应的本地表的元数据一致时,告警自动清除。 元数据一致包括: 表中各列的数量、名称、顺序、类型一致