检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
总副本预留磁盘空间所占比率超过阈值 告警解释 系统每30秒周期性检测总副本预留磁盘空间所占比率(总副本预留磁盘空间/(总副本预留磁盘空间+总剩余的磁盘空间)),并把实际的总副本预留磁盘空间所占比率和阈值(默认为90%)相比较。当检测到总副本预留磁盘空间所占比率连续多次(平滑次数)高于阈值时,产生该告警。
Hive数据仓库空间使用率超过阈值 告警解释 系统每30秒周期性检测Hive数据仓库空间使用率,该指标可在Hive服务监控界面查看,指标名称为“Hive已经使用的HDFS空间占可使用空间的百分比”。Hive数据仓库空间使用率指标默认提供一个阈值范围(85%),当检测到Hive数据仓库空间使用率超过阈值范围时产生该告警。
ALM-19009 HBase服务进程直接内存使用率超出阈值 告警解释 系统每30秒周期性检测HBase服务直接内存使用状态,当检测到HBase服务直接内存使用率超出阈值(最大内存的90%)时产生该告警。 直接内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除
IAM用户委托管理 对外API接口管理 MRS服务提供的开源大数据组件,其中开源组件请参考对应MRS版本组件列表。 支持客户进行MRS服务相关开源组件漏洞分析,如影响分析、修复建议,由用户负责评估对应的业务影响和进行最终实施。 不支持的服务 不负责提供具体MRS集群和开源大数据组件管理的运维
ALM-12007 进程故障 告警解释 进程健康检查模块按5秒周期检测进程状态。当进程健康检查模块连续三次检测到进程连接状态为故障时,产生该告警。 当进程连接正常时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12007 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。
ALM-12047 网络读包错误率超过阈值 告警解释 系统每30秒周期性检测网络读包错误率,并把实际错误率和阈值(系统默认阈值0.5%)进行比较,当检测到网络读包错误率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 >
ALM-12191 磁盘IO利用率超过阈值 告警解释 系统每30秒周期性检测磁盘IO利用率,并把实际磁盘IO利用率和阈值相比较。当检测到磁盘IO利用率连续多次(默认值为10)超出阈值范围时产生该告警。 平滑次数为1,磁盘IO利用率小于或等于阈值时,告警恢复;平滑次数大于1,磁盘I
ALM-12201 进程CPU使用率超过阈值 告警解释 系统每30秒周期性检测CPU使用率,并把实际CPU使用率和阈值相比较。当检测到CPU使用率连续多次(默认值为10)超出阈值范围时产生该告警。 平滑次数为1,CPU使用率小于或等于阈值时,告警恢复;平滑次数大于1,CPU使用率小于或等于阈值的90%时,告警恢复。
ALM-12207 慢盘处理超时 告警解释 当慢盘检测开关打开时,系统默认每隔10分钟检测一次慢盘处理情况,当磁盘或者节点处于如下状态且超过10小时状态未发生变更,则认为磁盘或者节点处理超时,上报该告警。 磁盘:自动隔离中止、已隔离、隔离失败、解除隔离失败。 节点:已隔离、隔离失
%),当检测到百分比指标低于阈值范围产生该告警。在该告警的定位信息可查看产生该告警的主机名,该主机IP也是HiveServer节点IP。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Hive > 执行成功的HQL百分比”修改阈值。 当系统在一个检测周期检测
ALM-17005 Oozie非堆内存使用率超过阈值 告警解释 系统每30秒周期性检测Oozie服务非堆内存使用状态,当检测到Oozie实例非堆内存使用率超出阈值(最大内存的80%)时产生该告警。非堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 17005
ALM-50202 FE CPU使用率超过阈值 告警解释 系统每30秒周期性检测FE CPU使用率。CPU使用率默认提供一个阈值范围。当检测到CPU使用率连续多次(默认值为3)超出阈值范围(默认值为95%)时产生该告警。 平滑次数为1,CPU使用率小于或等于阈值时,告警恢复;平滑
ALM-50206 BE内存使用率超过阈值 告警解释 系统每30秒周期性检测BE内存使用率。当检测到内存使用率连续多次(默认值为3)超出阈值范围时产生该告警。 平滑次数为1,内存使用率小于或等于阈值时,告警恢复;平滑次数大于1,内存使用率小于或等于阈值的85%时,告警恢复。 告警属性
ALM-45279 RangerAdmin非堆内存使用率超过阈值 告警解释 系统每60秒周期性检测RangerAdmin服务非堆内存使用状态,当连续5次检测到RangerAdmin实例非堆内存使用率超出阈值(最大内存的80%)时产生该告警,非堆内存使用率小于阈值时,告警恢复。 告警属性
ALM-13002 ZooKeeper内存使用量超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测ZooKeeper服务内存使用状态,当检测到ZooKeeper实例内存使用量超出阈值(最大内存的百分之八十)时产生该告警。 内存使用率小于阈值时,告警恢复。 告警属性 告警ID
ALM-14003 丢失的HDFS块数量超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测丢失的块数量,并把丢失的块数量和阈值相比较。丢失的块数量指标默认提供一个阈值范围。当检测到丢失的块数量超出阈值范围时产生该告警。 当丢失的块数量小于或等于阈值时,告警恢复。 告警属性
ALM-12028 主机D状态进程数超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测主机中omm用户D状态进程数,并把实际进程数和阈值相比较。主机D状态进程数默认提供一个阈值。当检测到进程数超出阈值时产生该告警。 当主机中omm用户D状态进程数小于或等于阈值时,告警恢复。
ALM-14006 HDFS文件数超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测HDFS文件数,并把实际文件数和阈值相比较。当检测到HDFS文件数指标超出阈值范围时产生该告警。 当HDFS文件数指标的值小于或等于阈值时,告警恢复。 告警属性 告警ID 告警级别 可自动清除
系统每30秒周期性检测连接到HiveServer的Session数占HiveServer允许的最大session数的百分比,该指标可在Hive服务监控界面查看。连接到HiveServer的session数占最大允许数的百分比指标默认提供一个阈值范围(90%),当检测到百分比指标超过阈值范围产生该告警。
NodeManager心跳丢失(2.x及以前版本) 告警解释 系统每30秒周期性检测丢失的NodeManager节点数,并把丢失的节点数和阈值相比较。“丢失的节点数”指标默认提供一个阈值范围。当检测到“丢失的节点数”的值超出阈值范围时产生该告警。 当“丢失的节点数”的值小于或等于阈值范围时,告警自动清除。