检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-47003 MemArtsCC Worker进程内存使用超过阈值 本章节仅适用于MRS 3.5.0及之后版本。 告警解释 系统每30秒周期性检查MemArtsCC组件的CCWorker进程内存,当检查到超过最大限制时触发该告警。 当检测到CCWorker进程内存使用率低于阈值时,告警恢复。
ALM-12172 指标上报CES失败 告警解释 集群开启指标共享后,controller周期性的收集集群指标信息并上报到CES。 告警属性 告警ID 告警级别 是否自动清除 12172 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或者系统名称 服务名 产生告警的服务名称
ALM-45655 Flink HA证书文件已过期 本章节适用于MRS 3.3.0及以后版本。 告警解释 Flink首次或者每天01:00:00开始健康检查时,检查当前系统中的HA证书文件是否已过期。如果HA证书已过期,产生该告警。证书恢复到有效期内,告警恢复。 告警属性 告警ID
ALM-12052 TCP临时端口使用率超过阈值 告警解释 系统每30秒周期性检测TCP临时端口使用率,并把实际使用率和阈值(系统默认阈值80%)进行比较,当检测到TCP临时端口使用率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称
SQL防御概述 当前大数据领域的SQL引擎层出不穷,在带给解决方案多样性的同时,也暴露出一定的问题,例如SQL输入语句质量良莠不齐、SQL问题难定位、大SQL语句消耗资源过多等。 低质量的SQL会对数据分析平台系统带来不可预料的冲击,影响系统的性能或者平台稳定性。 SQL防御功能仅MRS
ALM-12016 CPU使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测CPU使用率,并把实际CPU使用率和阈值相比较。CPU使用率默认提供一个阈值。当检测到CPU使用率连续多次(可配置,默认值为10)超过该阈值时产生该告警。 当平均CPU使用率小于或等于阈值的90%时,告警恢复。
ALM-12027 主机PID使用率超过阈值 告警解释 系统每30秒周期性检测PID使用率,并把实际PID使用率和阈值进行比较,PID使用率默认提供一个阈值。当检测到PID使用率超出阈值时产生该告警。 平滑次数为1,主机PID使用率小于或等于阈值时,告警恢复;平滑次数大于1,主机
ALM-29013 Impalad FGCT超过阈值 告警解释 系统每60秒周期性检测Impalad服务的FGC时间,当检测到的FGC时间超出阈值(连续5次检测超过12秒)时产生该告警,当FGC时间小于或等于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 29013
ALM-12004 OLdap资源异常 告警解释 系统按60秒周期检测Ldap资源,当连续6次监控到Manager中的Ldap资源异常时,系统产生此告警。 当Manager中的Ldap资源恢复,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12004 重要
ALM-43029 JDBCServer作业提交超时 本章节仅适用于MRS 3.5.0及之后版本。 告警解释 用户提交JDBC作业后,会尝试创建JDBCServer进程,并建立Session连接,在建立连接成功前,如果超出预设阈值,则会发出该告警。与该告警相关的配置参数有两个: spark
ALM-14001 HDFS磁盘空间使用率超过阈值 告警解释 系统每30秒周期性检测HDFS磁盘空间使用率,并把实际的HDFS磁盘空间使用率和阈值相比较。HDFS磁盘使用率指标默认提供一个阈值范围。当HDFS磁盘空间使用率超出阈值范围时,产生该告警。 用户可通过“运维 > 告警 >
管理Loader算子的字段配置信息 操作场景 该任务指导用户在创建或编辑Loader作业时关联、导入或导出算子的字段配置信息。 关联操作 将输入算子的字段配置信息关联到输出算子中。 编辑操作 编辑算子配置参数中的字段信息。 导入操作 通过算子导出文件或算子模板文件将字段配置信息导入到算子中。
ALM-16045 Hive数据仓库被删除 告警解释 系统每60秒周期性检测Hive数据仓库情况,Hive数据仓库被删除告警。 告警属性 告警ID 告警级别 是否自动清除 16045 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。
ALM-16001 Hive数据仓库空间使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测Hive数据仓库空间使用率,该指标可在Hive服务监控界面查看,指标名称为“Hive已经使用的HDFS空间占可使用空间的百分比”。Hive数据仓库空间使用率指标默认提供一个
ALM-50402 JobGateway服务不可用 告警解释 系统按60秒周期性检测组件JobGateway的服务状态。当检测到组件JobGateway服务异常时产生该告警。 当检测到组件JobGateway服务恢复时告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 50402
ALM-43013 JDBCServer GC 时间超出阈值(2.x及以前版本) 告警解释 系统每60秒周期性检测JDBCServer进程的GC时间,当检测到JDBCServer进程的GC时间超出阈值(连续3次检测超过12秒)时产生该告警。 用户可通过“系统设置 > 阈值配置 >
准备ClickHouse应用运行环境 准备集群认证用户信息 对于开启Kerberos认证的MRS集群,需提前准备具有相关组件操作权限的用户用于程序认证。 以下ClickHouse权限配置示例供参考,在实际业务场景中可根据业务需求灵活调整。 登录FusionInsight Manager。
ALM-50203 FE内存使用率超过阈值 告警解释 系统每30秒周期性检测FE内存使用率。当检测到内存使用率连续多次(默认值为3)超出阈值范围(默认值为95%)时产生该告警。 平滑次数为1,内存使用率小于或等于阈值时,告警恢复;平滑次数大于1,内存使用率小于或等于阈值的85%时,告警恢复。
ALM-50205 BE CPU使用率超过阈值 告警解释 系统每30秒周期性检测BE CPU使用率。当检测到CPU使用率连续多次(默认值为3)超出阈值范围(默认值为95%)时产生该告警。 平滑次数为1,CPU使用率小于或等于阈值时,告警恢复;平滑次数大于1,CPU使用率小于或等于阈值的85%时,告警恢复。
ALM-16048 Tez或者Spark库路径不存在 告警解释 系统每180秒周期性检测Tez和Spark库路径,不存在则产生该告警。 告警属性 告警ID 告警级别 是否自动清除 16048 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。