检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-18010 Yarn任务挂起数超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检查YARN服务处于挂起状态(Pending)的任务数量,并把挂起状态的任务数量和阈值进行比较。当检测到挂起状态的任务数超过阈值时产生该告警。 用户可通过在MRS Manager中的“系统设置
ALM-12357 审计日志导出到OBS失败(2.x及以前版本) 告警解释 用户在MRS Manager界面配置审计日志导出OBS后,系统会周期性的将审计日志导出到OBS,当访问OBS失败时产生该告警。 导出成功后,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12357
HDFS服务不可用(2.x及以前版本)的处理步骤处理该告警。 否,执行2。 检查LdapServer的服务状态。 查看是否有“ALM-25000 LdapServer服务不可用”告警产生。 是,参考ALM-25000 LdapServer服务不可用(2.x及以前版本)的处理步骤处理该告警。
ALM-12015 设备分区文件系统只读(2.x及以前版本) 告警解释 系统周期性进行扫描,如果检测到挂载服务目录的设备分区变为只读模式(如设备有坏扇区、文件系统存在故障等原因),则触发此告警。 系统如果检测到挂载服务目录的设备分区的只读模式消失(比如文件系统修复为读写模式、设备
ALM-14009 故障DataNode数量超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测HDFS集群处于故障状态的DataNode数量,并把实际的故障状态的DataNode数量和阈值相比较。故障状态的DataNode数量指标默认提供一个阈值范围。当HDFS集群故
ALM-23001 Loader服务不可用(2.x及以前版本) 告警解释 系统每60秒周期性检测Loader服务的可用性。当Loader服务不可用时产生该告警。当Loader服务恢复时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 23001 致命 是 告警参数 参数名称
ALM-27001 DBService服务不可用(2.x及以前版本) 告警解释 告警模块按30秒周期检测DBService服务状态。当DBService服务不可用时产生该告警。 DBService服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除 27001 致命 是
ALM-13000 ZooKeeper服务不可用(2.x及以前版本) 告警解释 系统每30秒周期性检测ZooKeeper服务状态,当检测到ZooKeeper服务不可用时产生该告警。 ZooKeeper服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除 13000 致命
ALM-12018 内存使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测内存使用率,并把实际内存使用率和阈值相比较。内存使用率默认提供一个阈值。当检测到内存使用率超过阈值时产生该告警。 当主机内存使用率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别
ALM-43009 JobHistory GC 时间超出阈值(2.x及以前版本) 告警解释 系统每60秒周期性检测JobHistory进程的GC时间,当检测到JobHistory进程的GC时间超出阈值(连续3次检测超过12秒)时产生该告警。 用户可通过“系统设置 > 阈值配置 >
ALM-18011 Yarn任务挂起内存超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检查YARN服务处于挂起状态(Pending)的任务所占内存量,并把挂起状态任务的内存量和阈值进行比较。当检测到挂起状态任务的内存量超过阈值时产生该告警。 用户可通过“系统设置> 阈值配置
ALM-19007 HBase合并队列超出阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测HBase服务的compaction队列长度,默认当连续3次检测到HBase服务的compaction队列长度超过告警的阈值(默认100)时产生该告警。当compaction队列长度小于告警的阈值时,告警恢复。
ALM-12035 恢复失败后数据状态未知(2.x及以前版本) 告警解释 执行恢复任务失败后,系统会自动回滚,如果回滚失败,可能会导致数据丢失等问题,如果该情况出现,则上报告警,如果下一次该任务恢复成功,则发送恢复告警。 告警属性 告警ID 告警级别 可自动清除 12035 致命
ALM-12016 CPU使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测CPU使用率,并把实际CPU使用率和阈值相比较。CPU使用率默认提供一个阈值。当检测到CPU使用率连续多次(可配置,默认值为10)超过该阈值时产生该告警。 当平均CPU使用率小于或等于阈值的90%时,告警恢复。
ALM-12049 网络读吞吐率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测网络读吞吐率,并把实际吞吐率和阈值(系统默认阈值80%)进行比较,当检测到网络读吞吐率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 > 设备 > 主机
ALM-12050 网络写吞吐率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测网络写吞吐率,并把实际吞吐率和阈值(系统默认阈值80%)进行比较,当检测到网络写吞吐率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 > 设备 > 主机
ALM-12043 DNS解析时长超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测DNS解析时长,并把DNS解析时长和阈值(系统默认阈值20000ms)进行比较,当检测到DNS解析时长连续多次(默认值为2)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 >
ALM-24003 Flume Client连接中断(2.x及以前版本) 告警解释 告警模块对Flume Server的连接端口状态进行监控。当Flume Client连接到Flume Server的某个端口,Client端连续3分钟未与Server端连接时,系统产生此告警。 当Flume
Datasource表优化 合并CBO优化 多级嵌套子查询以及混合Join的SQL调优 父主题: 使用Spark2x(MRS 3.x及之后版本)
Spark Core 日志聚合下如何查看Spark已完成应用日志 Driver返回码和RM WebUI上应用状态显示不一致 为什么Driver进程不能退出 网络连接超时导致FetchFailedException 当事件队列溢出时如何配置事件队列的大小 Spark应用执行过程中,