检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-45655 Flink HA证书文件已过期 本章节适用于MRS 3.3.0及以后版本。 告警解释 Flink首次或者每天01:00:00开始健康检查时,检查当前系统中的HA证书文件是否已过期。如果HA证书已过期,产生该告警。证书恢复到有效期内,告警恢复。 告警属性 告警ID
SQL防御概述 当前大数据领域的SQL引擎层出不穷,在带给解决方案多样性的同时,也暴露出一定的问题,例如SQL输入语句质量良莠不齐、SQL问题难定位、大SQL语句消耗资源过多等。 低质量的SQL会对数据分析平台系统带来不可预料的冲击,影响系统的性能或者平台稳定性。 SQL防御功能仅MRS
ALM-12016 CPU使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测CPU使用率,并把实际CPU使用率和阈值相比较。CPU使用率默认提供一个阈值。当检测到CPU使用率连续多次(可配置,默认值为10)超过该阈值时产生该告警。 当平均CPU使用率小于或等于阈值的90%时,告警恢复。
ALM-12027 主机PID使用率超过阈值 告警解释 系统每30秒周期性检测PID使用率,并把实际PID使用率和阈值进行比较,PID使用率默认提供一个阈值。当检测到PID使用率超出阈值时产生该告警。 平滑次数为1,主机PID使用率小于或等于阈值时,告警恢复;平滑次数大于1,主机
ALM-12015 设备分区文件系统只读(2.x及以前版本) 告警解释 系统周期性进行扫描,如果检测到挂载服务目录的设备分区变为只读模式(如设备有坏扇区、文件系统存在故障等原因),则触发此告警。 系统如果检测到挂载服务目录的设备分区的只读模式消失(比如文件系统修复为读写模式、设备
ALM-29013 Impalad FGCT超过阈值 告警解释 系统每60秒周期性检测Impalad服务的FGC时间,当检测到的FGC时间超出阈值(连续5次检测超过12秒)时产生该告警,当FGC时间小于或等于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 29013
ALM-29005 Impalad JDBC连接数超过阈值 告警解释 以30s为周期检测连接到该Impalad节点的客户端连接数,当检测到的连接数超过自定义阈值(默认60)时,系统产生此告警。 当系统检测到客户端连接数减少到阈值以下时,告警将自动解除。 告警属性 告警ID 告警级别
ALM-29006 Impalad ODBC连接数超过阈值 告警解释 以30s为周期检测连接到该Impalad节点的客户端连接数,当检测到的连接数超过自定义阈值(默认60)时,系统产生此告警。 当系统检测到客户端连接数减少到阈值以下时,告警将自动解除。 告警属性 告警ID 告警级别
ALM-18002 NodeManager心跳丢失(2.x及以前版本) 告警解释 系统每30秒周期性检测丢失的NodeManager节点数,并把丢失的节点数和阈值相比较。“丢失的节点数”指标默认提供一个阈值范围。当检测到“丢失的节点数”的值超出阈值范围时产生该告警。 当“丢失的节
查看MRS集群组件运行状态 MRS集群创建后,用户可在MRS管理控制台或者集群Manager界面查看集群内各服务组件以及组件角色实例的运行状态,以判断组件是否运行正常。 前提条件 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户
ALM-43009 JobHistory GC 时间超出阈值(2.x及以前版本) 告警解释 系统每60秒周期性检测JobHistory进程的GC时间,当检测到JobHistory进程的GC时间超出阈值(连续3次检测超过12秒)时产生该告警。 用户可通过“系统设置 > 阈值配置 >
ALM-50212 FE进程的老年代GC耗时累计值超过阈值 告警解释 系统每30秒周期性检查FE进程的老年代GC耗时累计值,当检查到该值超出阈值(默认值为3000ms)时产生该告警。 当系统检查到FE进程的老年代GC耗时累计值低于阈值时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除
ALM-12014 设备分区丢失(2.x及以前版本) 告警解释 系统周期性进行扫描,如果检测到挂载服务目录的设备分区丢失(如由于设备拔出、设备离线、删除分区等原因)时,产生此告警。 告警属性 告警ID 告警级别 可自动清除 12014 严重 是:MRS 1.9.3.10及之后补丁版本
ALM-18009 MapReduce JobHistoryServer堆内存使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测Mapreduce JobHistoryServer堆内存使用率,并把实际的Mapreduce JobHistoryServer堆内存
ALM-14001 HDFS磁盘空间使用率超过阈值 告警解释 系统每30秒周期性检测HDFS磁盘空间使用率,并把实际的HDFS磁盘空间使用率和阈值相比较。HDFS磁盘使用率指标默认提供一个阈值范围。当HDFS磁盘空间使用率超出阈值范围时,产生该告警。 用户可通过“运维 > 告警 >
管理Loader算子的字段配置信息 操作场景 该任务指导用户在创建或编辑Loader作业时关联、导入或导出算子的字段配置信息。 关联操作 将输入算子的字段配置信息关联到输出算子中。 编辑操作 编辑算子配置参数中的字段信息。 导入操作 通过算子导出文件或算子模板文件将字段配置信息导入到算子中。
ALM-16045 Hive数据仓库被删除 告警解释 系统每60秒周期性检测Hive数据仓库情况,Hive数据仓库被删除告警。 告警属性 告警ID 告警级别 是否自动清除 16045 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。
ALM-12042 关键文件配置异常 告警解释 系统每隔5分钟检查一次系统中关键的配置是否正确,如果不正常,则上报故障告警。 当检查到配置正确时,则告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12042 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。
ALM-50203 FE内存使用率超过阈值 告警解释 系统每30秒周期性检测FE内存使用率。当检测到内存使用率连续多次(默认值为3)超出阈值范围(默认值为95%)时产生该告警。 平滑次数为1,内存使用率小于或等于阈值时,告警恢复;平滑次数大于1,内存使用率小于或等于阈值的85%时,告警恢复。
ALM-50205 BE CPU使用率超过阈值 告警解释 系统每30秒周期性检测BE CPU使用率。当检测到CPU使用率连续多次(默认值为3)超出阈值范围(默认值为95%)时产生该告警。 平滑次数为1,CPU使用率小于或等于阈值时,告警恢复;平滑次数大于1,CPU使用率小于或等于阈值的85%时,告警恢复。