检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-19012 HBase系统表目录或文件丢失 告警解释 系统按120秒周期性检测HBase在HDFS上的如下目录和文件是否存在,当检测到文件或者目录不存在时,上报该告警。当文件或目录都恢复后,告警恢复。 检查内容: 命名空间hbase在HDFS上的目录。 hbase.version文件。
对于可以压缩的数据,配置压缩算法可以有效减少磁盘的IO,从而达到提高性能的目的。 说明: 并非所有数据都可以进行有效压缩。例如一张图片的数据,因为图片一般已经是压缩后的数据,所以压缩效果有限。常用的压缩算法是SNAPPY,因为它有较好的Encoding/Decoding速度和可以接受的压缩率。
3.1.5及之后版本。 告警解释 系统每30s周期性采集Presto Coordinator进程的垃圾收集(GC)时间,当检测到GC时间超出阈值(连续3次检测超过5s)时产生该告警。当 Coordinator进程GC时间小于或等于告警阈值时,告警清除。 告警属性 告警ID 告警级别
Broker磁盘IO繁忙”,请参考ALM-38009 Broker磁盘IO繁忙(适用于MRS 3.1.0之后版本)进行处理。 告警解释 系统每60秒周期性检测Kafka各个Topic的过载情况,当检测到某个Topic在过载磁盘上的Partition数占比超出阈值(默认40%)时,产生该告警。 平滑次数为1,当某个To
ALM-13003 ZooKeeper进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测ZooKeeper进程的垃圾回收(GC)占用时间,当检测到ZooKeeper进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复。
ZooKeeper Znode容量使用率超出阈值 告警解释 系统每小时(MRS 3.5.0及之后版本为“每10分钟”)周期性检测ZooKeeper服务数据目录下二级znode状态,当检测到二级znode的总容量超过阈值时产生该告警。 告警属性 告警ID 告警级别 是否自动清除 13009 重要 是
ALM-13010 配置quota的目录Znode使用率超出阈值 告警解释 系统每小时周期性检测配置quota的所有服务目录的znode数量,当检测到某个二级znode的数量使用率超过阈值时产生该告警。 告警属性 告警ID 告警级别 是否自动清除 13010 重要 是 告警参数 参数名称
ALM-28001 Spark服务不可用(2.x及以前版本) 告警解释 系统每30秒周期性检测Spark服务状态,当检测到Spark服务不可用时产生该告警。 Spark服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除 28001 致命 是 告警参数 参数名称 参数含义
ALM-43001 Spark服务不可用(2.x及以前版本) 告警解释 系统每60秒周期性检测Spark服务状态,当检测到Spark服务不可用时产生该告警。 Spark服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除 43001 致命 是 告警参数 参数名称 参数含义
ALM-13000 ZooKeeper服务不可用(2.x及以前版本) 告警解释 系统每30秒周期性检测ZooKeeper服务状态,当检测到ZooKeeper服务不可用时产生该告警。 ZooKeeper服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除 13000 致命
ALM-14010 NameService服务异常(2.x及以前版本) 告警解释 系统每180秒周期性检测NameService服务状态,当检测到NameService服务不可用时产生该告警。 NameService服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除
ALM-13000 ZooKeeper服务不可用 告警解释 系统每60秒周期性检测ZooKeeper服务状态,当检测到ZooKeeper服务不可用时产生该告警。 ZooKeeper服务恢复时,告警清除。 告警属性 告警ID 告警级别 是否自动清除 13000 紧急 是 告警参数 参数名称
ALM-18012 JobHistoryServer进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测JobHistoryServer进程的垃圾回收(GC)占用时间,当检测到JobHistoryServer进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复。
节点。增加任务的并行度,充分利用集群机器的计算能力,一般并行度设置为集群CPU总和的2-3倍。 操作步骤 并行度可以通过如下三种方式来设置,用户可以根据实际的内存、CPU、数据以及应用程序逻辑的情况调整并行度参数。 在会产生shuffle的操作函数内设置并行度参数,优先级最高。 testRDD
Oozie连接ZooKeeper状态异常 告警解释 在HA模式下,Oozie会依赖ZooKeeper,当检测到与ZooKeeper的连接状态连续3次异常时,产生该告警。 当检测到Oozie连接ZooKeeper状态正常时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 17008
ALM-18010 ResourceManager进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测ResourceManager进程的垃圾回收(GC)占用时间,当检测到ResourceManager进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复。
Worker进程垃圾收集时间超出阈值(2.x及以前版本) 告警解释 系统每30s周期性采集Presto Worker进程的垃圾收集(GC)时间,当检测到GC时间超出阈值(连续3次检测超过5s)时产生该告警。用户可在MRS Manager中通过“系统设置 > 阈值配置 > 服务 > Presto > Worker
ALM-45001 HetuEngine计算实例故障 此告警仅适用于MRS 3.2.0及之后版本。 告警解释 系统每60秒周期性检测HetuEngine计算实例状态,当检测到HetuEngine服务存在故障计算实例时产生该告警。 HetuEngine故障计算实例全部恢复时,告警清除。 告警属性
ALM-45652 Flink服务不可用 本章节适用于MRS 3.3.0及以后版本。 告警解释 告警模块按60秒周期检测Flink服务状态。当检测到Flink服务不可用时产生该告警。Flink服务恢复时,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 45652 紧急 是
ALM-43008 JobHistory进程直接内存使用超出阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测JobHistory进程直接内存使用状态,当检测到JobHistory进程直接内存使用率超出阈值(最大内存的90%)时产生该告警。 告警属性 告警ID 告警级别 可自动清除