检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
帮助用户快速构建大数据处理中心。 集群管理 以Hadoop为基础的大数据生态的各种组件均是以分布式的方式进行部署,其部署、管理和运维复杂度较高。 MRS集群管理提供了统一的运维管理平台,包括一键式部署集群能力,并提供多版本选择,支持运行过程中集群在无业务中断条件下,进行扩缩容、
ALM-12082 ommdba用户即将过期 告警解释 系统每天零点开始,每8小时检测当前系统中ommdba用户是否即将过期,如果用户即将在15天内过期,则发送告警。 当系统中ommdba用户过期的期限重置,当前状态为正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12082
ALM-14007 NameNode堆内存使用率超过阈值 告警解释 系统每30秒周期性检测HDFS NameNode堆内存使用率,并把实际的HDFS NameNode堆内存使用率和阈值相比较。HDFS NameNode堆内存使用率指标默认提供一个阈值范围。当HDFS NameNo
ALM-23001 Loader服务不可用(2.x及以前版本) 告警解释 系统每60秒周期性检测Loader服务的可用性。当Loader服务不可用时产生该告警。当Loader服务恢复时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 23001 致命 是 告警参数 参数名称
ALM-23001 Loader服务不可用 告警解释 系统每60秒周期性检测Loader服务的可用性。当Loader服务不可用时产生该告警。当Loader服务恢复时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 23001 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
ALM-27001 DBService服务不可用(2.x及以前版本) 告警解释 告警模块按30秒周期检测DBService服务状态。当DBService服务不可用时产生该告警。 DBService服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除 27001 致命 是
ALM-45325 Presto服务不可用 本章节仅适用于MRS 3.1.5及之后版本。 告警解释 系统每60秒周期性检测Presto服务状态。当Presto服务不可用时产生该告警;当Presto服务恢复时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45325 紧急
ALM-19000 HBase服务不可用(2.x及以前版本) 告警解释 告警模块按30秒周期检测HBase服务状态。当HBase服务不可用时产生该告警。 HBase服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除 19000 致命 是 告警参数 参数名称 参数含义
BE数据盘的使用率超过阈值 告警解释 系统每30秒周期性检查BE数据盘的使用率,当检查到该值超出阈值(默认值为95%)时产生该告警。 当系统检测到BE数据盘的使用率低于阈值时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 50221 紧急 是 告警参数 参数名称 参数含义
ALM-14007 HDFS NameNode内存使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测HDFS NameNode内存使用率,并把实际的HDFS NameNode内存使用率和阈值相比较。HDFS NameNode内存使用率指标默认提供一个阈值范围。当HDFS
ALM-14008 HDFS DataNode内存使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测HDFS DataNode内存使用率,并把实际的HDFS DataNode内存使用率和阈值相比较。HDFS DataNode内存使用率指标默认提供一个阈值范围。当HDFS
x及以前版本) 告警解释 系统每30秒周期性检查YARN服务处于挂起状态(Pending)的任务数量,并把挂起状态的任务数量和阈值进行比较。当检测到挂起状态的任务数超过阈值时产生该告警。 用户可通过在MRS Manager中的“系统设置 > 阈值配置 > 服务 > Yarn > 队列root正在挂起的任务
负载均衡方案 方案对比 ELB 支持多种请求策略 故障自动检测转移 后端ClickHouse扩容新增节点只需要修改ELB上的配置即可 BalancedClickhouseDataSource 内部随机方式分发请求,可能会导致负载不均匀 故障检测能力不足 当前通过ELB访问ClickHouse
ALM-14008 DataNode堆内存使用率超过阈值 告警解释 系统每30秒周期性检测HDFS DataNode堆内存使用率,并把实际的HDFS DataNode堆内存使用率和阈值相比较。HDFS DataNode堆内存使用率指标默认提供一个阈值范围。当HDFS DataNo
ALM-16045 Hive数据仓库被删除 告警解释 系统每60秒周期性检测Hive数据仓库情况,Hive数据仓库被删除告警。 告警属性 告警ID 告警级别 是否自动清除 16045 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。
ALM-18016 ResourceManager非堆内存使用率超过阈值 告警解释 系统每30秒周期性检测Yarn ResourceManager非堆内存使用率,并把实际的Yarn ResourceManager非堆内存使用率和阈值相比较。当Yarn ResourceManage
ALM-18019 JobHistoryServer非堆内存使用率超过阈值 告警解释 系统每30秒周期性检测MapReduce JobHistoryServer非堆内存使用率,并把实际的MapReduce JobHistoryServer非堆内存使用率和阈值相比较。当MapReduce
负载均衡方案 方案对比 ELB 支持多种请求策略 故障自动检测转移 后端ClickHouse扩容新增节点只需要修改ELB上的配置即可 BalancedClickhouseDataSource 内部随机方式分发请求,可能会导致负载不均匀 故障检测能力不足 当前通过ELB访问ClickHouse
ALM-12083 ommdba密码即将过期 告警解释 系统每天零点开始,每8小时检测当前系统中ommdba密码是否即将过期,如果当前时间与ommdba密码过期时间剩余不足15天,则发送告警。 当系统中ommdba用户密码过期的期限重置,当前状态为正常,告警恢复。 告警属性 告警ID
ALM-14009 Dead DataNode数量超过阈值 告警解释 系统每30秒周期性检测HDFS集群处于故障状态的DataNode数量,并把实际的故障状态的DataNode数量和阈值相比较。故障状态的DataNode数量指标默认提供一个阈值范围。当HDFS集群故障状态的Dat