检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
BE连接OBS不可用 告警解释 系统每30秒周期性检查Doris BE实例节点对OBS的连接是否可用,当检查到连接状态码非零时,产生该告警。 当检测到连接状态码为零时,告警恢复。 该告警仅适用于MRS 3.3.1及之后版本。 告警属性 告警ID 告警级别 是否可自动清除 50230 紧急
上个周期Hive SQL执行失败超过阈值(2.x及以前版本) 告警解释 上个10min的周期内,Hive SQL执行失败数超过阈值。该告警每10min钟检测一次,如果上个10min周期内,发生Hive SQL执行失败数大于设定的阈值时候,会发生该告警。在下个10min周期,如果运行失败的Hive
配置Spark小文件自动合并 配置场景 小文件自动合并特性开启后,Spark将数据先写入临时目录,再去检测每个分区的平均文件大小是否小于16MB(默认值)。如果发现平均文件大小小于16MB,则认为分区下有小文件,Spark会启动一个Job合并这些小文件,并将合并后的大文件写入到最终的表目录下。
5.0及之后版本。 告警解释 系统每30秒周期性检查MemArtsCC组件的CCWorker进程内存,当检查到超过最大限制时触发该告警。 当检测到CCWorker进程内存使用率低于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 47003 重要 是 告警参数 类别
告警解释 系统每30秒周期性检查MemArtsCC组件的CCWorker进程内部所有read请求的平均时延,当检查到超过限制时触发该告警。 当检测到CCWorker进程内的read请求时延下降到低于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 47004 重要 是
ALM-12032 ommdba用户或密码即将过期(2.x及以前版本) 告警解释 系统每天零点开始,每8小时检测当前系统中ommdba用户和密码是否过期,如果用户或密码即将在15天内过期,则发送告警。 当系统中ommdba用户过期的期限修改或密码重置,且告警处理完成时,告警恢复。
ALM-14012 HDFS Journalnode数据不同步(2.x及以前版本) 告警解释 在主NameNode节点上,系统每5分钟检测一次集群中所有JournalNode节点的数据同步性。如果有JournalNode节点的数据不同步,系统产生该告警。 当Journalnode数据同步5分钟后,告警恢复。
ALM-12011 Manager主备节点同步数据异常 告警解释 系统按60秒周期检测Manager主备节点同步数据情况,当备Manager无法与主Manager同步文件时,产生该告警。 当备Manager与主Manager正常同步文件时,告警恢复。 告警属性 告警ID 告警级别
ALM-16006 Hive服务进程直接内存使用超出阈值 告警解释 系统每30秒周期性检测Hive直接内存使用率,并把实际的Hive直接内存使用率和阈值相比较。当Hive直接内存使用率超出阈值(默认为最大直接内存的95%)时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 >
ALM-16008 Hive服务进程非堆内存使用超出阈值 告警解释 系统每30秒周期性检测Hive非堆内存使用率,并把实际的Hive非堆内存使用率和阈值相比较。当Hive非堆内存使用率超出阈值(默认为最大非堆内存的95%)时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 >
ALM-16053 Hive的HQL最近5分钟平均提交时间超过阈值 告警解释 系统周期性检测HQL平均提交时间,该时间为调用MapReduce/Spark/Tez接口提交Yarn作业的时间,包含上传依赖的临时Jar包、切分文件等时间。当最近5分钟HQL的平均提交时间超过阈值时上报该告警。
启前后ClickHouse的拓扑不会变化,此时如果同一shard的副本节点都在同一个AZ内,不能满足跨AZ高可用要求,产生该告警。 当系统检测到所有shard的实例满足跨AZ高可用部署,告警自动清除。 告警属性 告警ID 告警级别 是否自动清除 45433 紧急 是 告警参数 参数名称
下,Znode占用数出现持续陡增,两小时增长量超过设定的阈值,则上报告警。对于大量导数据或者迁业务场景下,可以忽略此次告警的上报。 当系统检测到两小时增长量低于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 45448 重要 是 告警参数 类别 参数名称 参数含义
ALM-50407 JobServer查询作业接口失败率超过阈值 本章节仅适用于MRS 3.5.0及之后版本。 告警解释 系统每30秒周期性检测JobServer中查询失败的接口占比,当失败率超出阈值(默认值为80%)时,触发该告警。 当失败率低于阈值时,告警恢复。 告警属性 告警ID
ALM-50207 FE的MySQL端口连接数与允许最大连接数的比值超过阈值 告警解释 系统每30秒周期性检查MySQL端口连接数,当检测到当前连接数与设置的FE最大端口连接数的比值超出阈值(默认值为95%)时产生该告警。当前集群设置的FE最大端口连接数由参数“qe_max_co
上个周期运行失败的Yarn任务数超过阈值(2.x及以前版本) 告警解释 上个10min的周期内,运行失败的YARN任务数超过阈值。该告警每10min检测一次,如果上个10min周期内,发生YARN任务运行失败的数量大于设定的阈值时候,会发生该告警。如果在下个10min周期,运行失败的Yarn任务数低于阈值时该告警会自动消除。
ALM-14001 HDFS磁盘空间使用率超过阈值 告警解释 系统每30秒周期性检测HDFS磁盘空间使用率,并把实际的HDFS磁盘空间使用率和阈值相比较。HDFS磁盘使用率指标默认提供一个阈值范围。当HDFS磁盘空间使用率超出阈值范围时,产生该告警。 用户可通过“运维 > 告警 >
ALM-18026 Yarn上运行失败的任务数超过阈值 告警解释 告警模块按60秒周期检测Yarn root队列上失败的应用的数量,当root队列上该监控周期内新增的运行失败的应用的数量超过50时,且连续发生3次以上,触发该告警。 告警属性 告警ID 告警级别 是否自动清除 18026
MRS集群的节点如何安装主机安全服务? 操作场景 MRS集群中的节点可以使用主机安全服务(Host Security Service,HSS)提供的主机管理、风险预防、入侵检测等功能,识别并管理主机中的信息资产,实时监测主机中的风险并阻止非法入侵行为,帮助企业构建服务器安全体系,降低当前服务器面临的主要安全风险。
ALM-18024 Yarn任务挂起内存量超阈值 告警解释 告警模块按60秒周期检测Yarn当前挂起的内存量大小,当Yarn上面挂起的内存量大小超过阈值时,触发该告警。挂起的内存量表示当前所有提交的Yarn应用还没有满足的内存量总和。 告警属性 告警ID 告警级别 是否自动清除 18024