检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hive数据仓库空间使用率超过阈值 告警解释 系统每30秒周期性检测Hive数据仓库空间使用率,该指标可在Hive服务监控界面查看,指标名称为“Hive已经使用的HDFS空间占可使用空间的百分比”。Hive数据仓库空间使用率指标默认提供一个阈值范围(85%),当检测到Hive数据仓库空间使用率超过阈值范围时产生该告警。
ALM-19009 HBase服务进程直接内存使用率超出阈值 告警解释 系统每30秒周期性检测HBase服务直接内存使用状态,当检测到HBase服务直接内存使用率超出阈值(最大内存的90%)时产生该告警。 直接内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除
ALM-19024 RegionServer RPC响应时间的P99超过阈值 告警解释 系统每30秒周期性检测每个HBase服务的RegionServer实例的RPC请求响应时间的P99。当检测到某个RegionServer上的RPC请求响应时间的P99连续10次超出阈值时产生该告警。 当
ALM-24007 Flume Server直接内存使用率超过阈值 告警解释 系统每60秒周期性检测Flume服务直接内存使用状态,当连续5次检测到Flume实例直接内存使用率超出阈值(最大内存的80%)时,产生该告警。当Flume直接内存使用率小于或等于阈值时,告警恢复。 告警属性
ALM-43010 JDBCServer2x进程堆内存使用超出阈值 告警解释 系统每30秒周期性检测JDBCServer2x进程堆内存使用状态,当检测到JDBCServer2x进程堆内存使用率超出阈值(最大内存的95%)时产生该告警。 MRS 3.3.0-LTS及之后的版本中,S
ALM-43011 JDBCServer2x进程非堆内存使用超出阈值 告警解释 系统每30秒周期性检测JDBCServer2x进程非堆内存使用状态,当检测到JDBCServer2x进程非堆内存使用率超出阈值(最大内存的95%)时产生该告警。 MRS 3.3.0-LTS及之后的版本
ALM-43012 JDBCServer2x进程直接内存使用超出阈值 告警解释 系统每30秒周期性检测JDBCServer2x进程直接内存使用状态,当检测到JDBCServer2x进程直接内存使用率超出阈值(最大内存的95%)时产生该告警。 MRS 3.3.0-LTS及之后的版本
ALM-45177 OBS数据读操作接口调用成功率低于阈值 告警解释 系统每30秒周期性检测OBS数据读操作接口调用成功率是否小于阈值,当检测到小于所设置阈值时就会产生该告警 。 当OBS数据读操作接口调用成功率大于阈值时,该告警会自动清除。 告警属性 告警ID 告警级别 是否自动清除
ALM-45282 UserSync直接内存使用率超过阈值 告警解释 系统每60秒周期性检测UserSync服务直接内存使用状态,当连续5次检测到UserSync实例直接内存使用率超出阈值(最大内存的80%)时,产生该告警。当UserSync直接内存使用率小于或等于阈值时,告警恢复。
补丁基本信息 表1 补丁基本信息 补丁号 MRS 1.9.2.2 发布时间 2021-05-18 解决的问题 MRS Manager 解决sudo提权漏洞 解决扩容刷新队列会导致队列丢失问题 MRS大数据组件 解决Hive on Spark任务报block id乱码,导致任务卡住问题 Hive中增加自研的接口
ALM-50203 FE内存使用率超过阈值 告警解释 系统每30秒周期性检测FE内存使用率。当检测到内存使用率连续多次(默认值为3)超出阈值范围(默认值为95%)时产生该告警。 平滑次数为1,内存使用率小于或等于阈值时,告警恢复;平滑次数大于1,内存使用率小于或等于阈值的85%时,告警恢复。
ALM-50205 BE CPU使用率超过阈值 告警解释 系统每30秒周期性检测BE CPU使用率。当检测到CPU使用率连续多次(默认值为3)超出阈值范围(默认值为95%)时产生该告警。 平滑次数为1,CPU使用率小于或等于阈值时,告警恢复;平滑次数大于1,CPU使用率小于或等于阈值的85%时,告警恢复。
ALM-12017 磁盘容量不足(2.x及以前版本) 告警解释 系统每30秒周期性检测磁盘容量,并把实际磁盘容量和阈值相比较。磁盘容量默认提供一个阈值。当检测到磁盘容量低于阈值时产生该告警。 用户可通过“系统设置 > 阈值配置”修改阈值。 当主机磁盘使用率小于或等于阈值时,告警恢复。
DataNode磁盘空间使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测DataNode磁盘空间使用率,并把实际磁盘使用率和阈值相比较。DataNode容量百分比指标默认提供一个阈值范围。当检测到DataNode容量百分比指标超出阈值范围时产生该告警。 当DataNode
ALM-18003 NodeManager不健康(2.x及以前版本) 告警解释 系统每30秒周期性检测异常NodeManager节点数,并把异常节点数和阈值相比较。“非健康的节点数”指标默认提供一个阈值范围。当检测到“非健康的节点数”的值超出阈值范围时产生该告警。 当“非健康的节点数”的值小于或等于阈值范围时,告警自动清除。
ALM-38002 Kafka堆内存使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测Kafka服务堆内存使用状态,当检测到Kafka实例堆内存使用率超出阈值(最大内存的80%)时产生该告警。 堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 可自动清除
ALM-12015 设备分区文件系统只读 告警解释 系统按60秒周期进行扫描,如果检测到挂载服务目录的设备分区变为只读模式(如设备有坏扇区、文件系统存在故障等原因),则触发此告警。 系统如果检测到挂载服务目录的设备分区的只读模式消失(比如文件系统修复为读写模式、设备拔出、设备被重新格式化等原因),则告警恢复。
ALM-12028 主机D状态和Z状态进程数超过阈值 告警解释 系统每30秒周期性检测主机中omm用户D状态和Z状态进程数,并把实际进程数和阈值相比较。主机D状态和Z状态进程数默认提供一个阈值范围。当检测到进程数超出阈值范围时产生该告警。 平滑次数为1,主机中omm用户D状态和Z状态
ALM-12045 网络读包丢包率超过阈值 告警解释 系统每30秒周期性检测网络读包丢包率,并把实际丢包率和阈值(系统默认阈值0.5%)进行比较,当检测到网络读包丢包率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 >
ALM-12046 网络写包丢包率超过阈值 告警解释 系统每30秒周期性检测网络写包丢包率,并把实际丢包率和阈值(系统默认阈值0.5%)进行比较,当检测到网络写包丢包率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 >