检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-12027 主机PID使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测PID使用率,并把实际PID使用率和阈值进行比较,PID使用率默认提供一个阈值。当检测到PID使用率超出阈值时产生该告警。 当主机PID使用率小于或等于阈值时,告警恢复。 告警属性 告警
ALM-12028 主机D状态进程数超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测主机中omm用户D状态进程数,并把实际进程数和阈值相比较。主机D状态进程数默认提供一个阈值。当检测到进程数超出阈值时产生该告警。 当主机中omm用户D状态进程数小于或等于阈值时,告警恢复
ALM-14003 丢失的HDFS块数量超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测丢失的块数量,并把丢失的块数量和阈值相比较。丢失的块数量指标默认提供一个阈值范围。当检测到丢失的块数量超出阈值范围时产生该告警。 当丢失的块数量小于或等于阈值时,告警恢复。 告警属性
ALM-43013 JDBCServer2x进程GC时间超出阈值 告警解释 系统每60秒周期性检测JDBCServer2x进程的GC时间,当检测到JDBCServer2x进程的GC时间超出阈值(连续3次检测超过12秒)时产生该告警。用户可通过“运维 >告警 > 阈值设置 > Spark2x
ALM-25500 KrbServer服务不可用(2.x及以前版本) 告警解释 系统按30秒周期性检测组件KrbServer的服务状态。当检测到组件KrbServer服务异常时产生该告警。 当检测到组件KrbServer服务恢复时告警恢复。 告警属性 告警ID 告警级别 可自动清除
ALM-16052 MetaStore创建表时访问元数据库时延超过阈值 告警解释 系统周期性检测MetaStore创建表时访问元数据库时延,当最近5分钟创建表的平均时延超过阈值时上报告警。 当最近5分钟创建表的平均时延小于阈值时,告警恢复。 该章节适用于MRS 3.5.0及之后版本
ALM-19014 在ZooKeeper上的容量配额使用率严重超过阈值 告警解释 系统每120秒周期性检测HBase服务的znode使用情况,当检测到HBase服务的znode容量使用率超出紧急告警的阈值(默认90%)时产生该告警。 当znode的容量使用率小于严重告警的阈值时,告警恢复
ALM-19016 在ZooKeeper上的数量配额使用率严重超过阈值 告警解释 系统每120秒周期性检测HBase服务的znode使用情况,当检测到HBase服务的znode数量使用率超出紧急告警的阈值(默认90%)时产生该告警。 当znode的数量使用率小于严重告警的阈值时,告警恢复
ALM-26053 Storm Slot使用率超过阈值(2.x及以前版本) 告警解释 系统每60秒周期性检测Slot使用率,并把实际Slot使用率和阈值相比较。当检测到Slot使用率高于阈值时产生该告警。 用户可通过“系统设置 > 阈值配置”修改阈值。 当Slot使用率小于或等于阈值时
ALM-45595 IoTDBServer跨空间合并执行时长超过阈值 告警解释 当检测到跨空间合并时长超出阈值时产生该告警。当跨空间合并时长低于阈值时,告警清除。 告警属性 告警ID 告警级别 是否自动清除 45595 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称
设置为-1或0表示禁用滚动监控,应用任务结束后日志汇聚。取值范围大于等于-1。
主机隔离后无法统计并显示该主机硬件和主机上实例的监控状态及指标数据。 父主题: 集群管理
ALM-12057 元数据未配置周期备份到第三方服务器的任务 告警解释 系统安装完成后会检查元数据是否有周期备份到第三方服务器的任务,然后每1小时会检查一次。如果元数据未配置周期备份到第三方服务器的任务,将发送重要告警。 在用户创建元数据周期备份到第三方服务器的任务后,告警消除。
修改MRS集群LDAP普通用户密码 该任务指导用户定期修改MRS集群的LDAP管理员用户和LDAP用户的密码,以提升系统运维安全性。 MRS 3.1.0版本用户名称: LDAP管理员用户:cn=root,dc=hadoop,dc=com LDAP用户:cn=pg_search_dn
配置YARN-Client和YARN-Cluster不同模式下的环境变量 配置场景 当前,在YARN-Client和YARN-Cluster模式下,两种模式的客户端存在冲突的配置,即当客户端为一种模式的配置时,会导致在另一种模式下提交任务失败。 为避免出现如上情况,添加表1中的配置项
ALM-14002 DataNode磁盘空间使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测DataNode磁盘空间使用率,并把实际磁盘使用率和阈值相比较。DataNode容量百分比指标默认提供一个阈值范围。当检测到DataNode容量百分比指标超出阈值范围时产生该告警
它负责监控NameNode的状态,并及时把状态写入Zookeeper。ZKFC有选择哪个NameNode作为主NameNode的权利。 Colocation 同分布(Colocation)功能是将存在关联关系的数据或可能要进行关联操作的数据存储在相同的存储节点上。
(V1) POST /v1.1/{project_id}/jobs/submit-job mrs:job:submit √ √ 新增并执行作业(V2) POST /v2/{project_id}/clusters/{cluster_id}/job-executions √ √ 查询作业
配置Controller与Agent间数据传输加密 操作场景 安装集群后Controller和Agent之间需要进行数据通信,在通信的过程中采用了Kerberos认证,出于对集群性能的考虑,通信过程默认不加密,对于一些安全要求较高用户可以采用以下方式进行加密。 该章节仅适用于MRS
ALM-43010 JDBCServer2x进程堆内存使用超出阈值 告警解释 系统每30秒周期性检测JDBCServer2x进程堆内存使用状态,当检测到JDBCServer2x进程堆内存使用率超出阈值(最大内存的95%)时产生该告警。 MRS 3.3.0-LTS及之后的版本中,Spark2x