检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-45004 HetuEngine计算实例任务积压 本章节适用于MRS 3.3.1及以后版本。 告警解释 系统每30秒周期性检测HetuEngine计算实例的运行任务个数,当检测到HetuEngine计算实例的运行任务个数大于50时产生该告警。 HetuEngine计算实例运行的任务个数小于等于50时,告警清除。
增强有限内存下的稳定性 配置场景 当前Spark SQL执行一个查询时需要使用大量的内存,尤其是在做聚合(Aggregate)和关联(Join)操作时,此时如果内存有限的情况下就很容易出现OutOfMemoryError。有限内存下的稳定性就是确保在有限内存下依然能够正确执行相关
ALM-45425 ClickHouse服务不可用 告警解释 告警模块按60秒周期检测ClickHouse实例状态,当检测到所有ClickHouse实例异常时,系统产生此告警。 当系统检测到任一ClickHouse实例恢复正常,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别
ALM-12015 设备分区文件系统只读 告警解释 系统按60秒周期进行扫描,如果检测到挂载服务目录的设备分区变为只读模式(如设备有坏扇区、文件系统存在故障等原因),则触发此告警。 系统如果检测到挂载服务目录的设备分区的只读模式消失(比如文件系统修复为读写模式、设备拔出、设备被重新格式化等原因),则告警恢复。
E-22275。 补丁兼容关系 MRS 2.1.0.8补丁包中包含MRS 2.1.0版本发布的所有补丁内容。 已修复漏洞披露 解决Spark远程代码执行漏洞,漏洞详细请参考CVE-2020-9480 安装补丁的影响 安装MRS 2.1.0.8补丁期间会重启MRS Manager,
JobHistory GC 时间超出阈值(2.x及以前版本) 告警解释 系统每60秒周期性检测JobHistory进程的GC时间,当检测到JobHistory进程的GC时间超出阈值(连续3次检测超过12秒)时产生该告警。 用户可通过“系统设置 > 阈值配置 > 服务 > Spark
告警解释 系统按30秒周期性检测LdapServer数据,如果连续12次检测,Manager的主备LdapServer的数据内容都不一致,产生该告警,当两者的数据一致时,对应告警恢复。 系统按30秒周期性检测LdapServer数据,如果连续12次检测,集群中的LdapServe
HetuEngine计算实例查询时延超过阈值 本章节适用于MRS 3.5.0及以后版本。 告警解释 系统每30秒周期性检测HetuEngine计算实例的查询时延,当检测到HetuEngine计算实例的查询时延大于等于60S时产生该告警。 HetuEngine计算实例的查询时延小于60S时,告警清除。
ALM-50201 Doris服务不可用 告警解释 告警模块按60秒周期检测Doris服务状态,当检测到所有FE和BE实例异常时,系统产生此告警。 当系统检测到任意FE或BE实例恢复正常,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 50201 紧急 是 告警参数 参数名称
ALM-45615 CDL服务不可用 告警解释 系统每60秒周期检测CDL健康状态,当检测到CDL健康状态为DOWN时,系统产生此告警。当系统检测到CDL健康状态为UP,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45615 紧急 是 告警参数 参数名称 参数含义 来源
Guardian服务不可用 本章节仅适用于MRS 3.1.5及之后版本。 告警解释 告警模块按60秒周期检测Guardian服务状态,当检测到Guardian服务异常时,系统产生此告警。 当系统检测到Guardian服务恢复正常,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除
ALM-19007 HBase GC时间超出阈值 告警解释 系统每60秒周期性检测HBase服务的老年代GC时间,当检测到HBase服务的老年代GC时间超出阈值(默认连续3次检测超过5秒)时产生该告警。 在FusionInsight Manager首页,用户可通过选择“运维 > 告警
JobHistory2x进程Full GC次数超出阈值 告警解释 系统每60秒周期性检测JobHistory2x进程的Full GC次数,当检测到JobHistory2x进程的Full GC次数超出阈值(连续3次检测超过12次)时产生该告警。用户可通过“运维 > 阈值设置 > Spark2x
ALM-45276 RangerAdmin状态异常 告警解释 告警模块按60秒周期检测RangerAdmin状态,当检测到RangerAdmin状态异常时,系统产生此告警。 当系统检测到RangerAdmin状态恢复正常,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别
查看ClickHouse慢查询语句 操作场景 在ClickHouse上执行SQL语句查询时,常因为SQL语句的分区、where条件以及索引等设置不合理问题,导致SQL查询很慢,影响数据库的整体性能。针对该场景,MRS提供了ClickHouse慢查询语句的监控功能。 正在进行的慢查询
ALM-45275 Ranger服务不可用 告警解释 告警模块按180秒周期检测Ranger服务状态,当检测到Ranger服务异常时,系统产生此告警。 当系统检测到Ranger服务恢复正常,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45275 紧急
本章节仅适用于MRS 3.3.1及之后版本。 告警解释 系统每隔5分钟检测一次mutation任务,当检测到有正在执行的mutation任务且运行时间大于等于阈值slow_mutation_cost_time时,系统产生告警;当没有检测到正在运行的mutation任务或mutation任务运行
ClickHouse服务在ZooKeeper的数量配额使用率超过阈值 告警解释 告警模块按60秒周期检测ClickHouse服务在ZooKeeper的数量配额使用百分比,当检测到使用百分比超过阈值(90%),系统产生此告警。 当系统检测到使用百分比低于阈值,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别
本章节仅适用于MRS 3.1.5及之后版本。 告警解释 系统每60秒周期性检测TokenServer进程的垃圾回收(GC)占用时间,当连续5次检测到TokenServer进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 当系统检测到垃圾回收(GC)时间小于阈值时,告警恢复。 告警属性
ALM-50402 JobGateway服务不可用 告警解释 系统按60秒周期性检测组件JobGateway的服务状态。当检测到组件JobGateway服务异常时产生该告警。 当检测到组件JobGateway服务恢复时告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 50402