检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
x及以前版本) 告警解释 系统每30秒周期性检测Hive数据仓库空间使用率,该指标可在Hive服务监控界面查看,指标名称为“Hive已经使用的HDFS空间占可使用空间的百分比”。Hive数据仓库空间使用率指标默认提供一个阈值范围(85%),当检测到Hive数据仓库空间使用率超过阈值范围时产生该告警。
否,执行38。 chrony不能正常同步,通常与系统防火墙有关。如果能关闭防火墙,建议尝试关闭防火墙;如果不能关闭防火墙,请检查防火墙配置策略,确保UDP 123、323端口未禁用(具体遵循各系统下防火墙配置策略)。 处理防火墙后等待10分钟,检查该告警是否恢复。 是,处理完毕。
ALM-38011 Broker上用户连接数使用率超过设定阈值 告警解释 系统每30秒周期性检测Broker上每个用户的连接数情况,当连续5次检测到Broker上某个用户的连接数使用占比超过阈值(默认80%)时产生该告警。 平滑次数为5,当Broker上某个用户的连接数使用占比低于阈值时,告警恢复。
Worker3进程垃圾收集时间超出阈值 告警解释 系统每30s周期性采集Presto Worker3进程的垃圾收集(GC)时间,当检测到GC时间超出阈值(连续3次检测超过5s)时产生该告警。当 Worker3进程GC时间小于或等于告警阈值时,告警清除。 告警属性 告警ID 告警级别 是否自动清除
ALM-19008 HBase服务进程堆内存使用率超出阈值 告警解释 系统每30秒周期性检测HBase服务堆内存使用状态,当检测到HBase服务堆内存使用率超出阈值(最大内存的90%)时产生该告警。 告警属性 告警ID 告警级别 是否自动清除 19008 重要 是 告警参数 参数名称
ALM-12016 CPU使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测CPU使用率,并把实际CPU使用率和阈值相比较。CPU使用率默认提供一个阈值。当检测到CPU使用率连续多次(可配置,默认值为10)超过该阈值时产生该告警。 当平均CPU使用率小于或等于阈值的90%时,告警恢复。
ALM-13001 ZooKeeper可用连接数不足(2.x及以前版本) 告警解释 系统每30秒周期性检测ZooKeeper服务连接数状态,当检测到ZooKeeper实例连接数超出阈值(最大连接数的百分之八十)时产生该告警。 连接数小于阈值时,告警恢复。 告警属性 告警ID 告警级别
ALM-14024 租户空间使用率超过阈值 告警解释 系统每小时周期性检测租户所关联的每个目录的空间使用率(每个目录已使用的空间大小/每个目录分配的空间大小),并把每个目录实际的空间使用率和该目录设置的阈值相比较。当检测到租户所关联的目录空间使用率高于该目录设置的阈值时,产生该告警。
ALM-12017 磁盘容量不足 告警解释 系统每30秒周期性检测磁盘使用率,并把磁盘使用率和阈值相比较。磁盘使用率有一个默认阈值,当检测到磁盘使用率超过阈值时产生该告警。 平滑次数为1,主机磁盘某一分区使用率小于或等于阈值时,告警恢复;平滑次数大于1,主机磁盘某一分区使用率小于或等于阈值的90%时,告警恢复。
ALM-12018 内存使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测内存使用率,并把实际内存使用率和阈值相比较。内存使用率默认提供一个阈值。当检测到内存使用率超过阈值时产生该告警。 当主机内存使用率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别
ALM-12014 设备分区丢失(2.x及以前版本) 告警解释 系统周期性进行扫描,如果检测到挂载服务目录的设备分区丢失(如由于设备拔出、设备离线、删除分区等原因)时,产生此告警。 告警属性 告警ID 告警级别 可自动清除 12014 严重 是:MRS 1.9.3.10及之后补丁版本
Hue界面无法加载HBase表 用户问题 用户在Hue界面将hive数据导入hbase后,报检测不到hbase表的错误。 问题现象 Kerberos集群中,IAM子账户权限不足导致无法加载hbase表。 原因分析 IAM子账户权限不足。 处理步骤 MRS Manager界面操作:
ALM-12014 设备分区丢失 告警解释 系统按60秒周期进行扫描,如果检测到挂载服务目录的设备分区丢失(如由于设备拔出、设备离线、删除分区等原因)时,产生此告警。 告警属性 告警ID 告警级别 是否自动清除 12014 重要 是:MRS 3.3.0及之后版本、MRS 3.1.0
API V1.1接口作业提交后,状态显示为error。 原因分析 executor会监控作业日志回显,确定作业执行结果,改为error后,检测不到输出结果,因此过期后判断作业状态为异常。 处理步骤 将“/opt/client/Spark/spark/conf/log4j.prop
Presto Coordinator资源组排队任务超过阈值 告警解释 系统通过jmx接口查询资源组的排队任务数即QueuedQueries指标,当检测到资源组排队数大于阈值时产生该告警。用户可通过"组件管理 > Presto > 服务配置(将“基础配置”切换为“全部配置”) >Presto
ALM-16048 Tez或者Spark库路径不存在 告警解释 系统每180秒周期性检测Tez和Spark库路径,不存在则产生该告警。 告警属性 告警ID 告警级别 是否自动清除 16048 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。
omFloatIp : XXX.XXX.XXX.XXX is reachable. 是,执行12。 否,执行9。 查看检测完wsNetExport后是否打印omNetExport的检测日志或两条日志打印间隔时间超过10s或更长。 是,执行10。 否,执行12。 查看操作系统的“/var/lo
Coordinator资源组排队任务超过阈值(2.x及以前版本) 告警解释 系统通过jmx接口查询资源组的排队任务数即QueuedQueries指标,当检测到资源组排队数大于阈值时产生该告警。用户可通过"组件管理 > Presto > 服务配置(将“基础配置”切换为“全部配置”) >Presto
分区均衡时间超过阈值 告警解释 系统每10分钟(可以通过修改Kafka配置项“auto.reassign.check.interval.ms”调整)周期性检测,扩容新的Broker后触发的分区均衡时间超过阈值(默认为1440分钟,可以通过修改Kafka配置项“reassignment.total
ALM-45593 IoTDBServer Flush执行时长超过阈值 告警解释 当检测到数据Flush功能时长超出阈值时产生该告警。当Flush时长低于阈值时,告警清除。 告警属性 告警ID 告警级别 是否自动清除 45593 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。