检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-12017 磁盘容量不足(2.x及以前版本) 告警解释 系统每30秒周期性检测磁盘容量,并把实际磁盘容量和阈值相比较。磁盘容量默认提供一个阈值。当检测到磁盘容量低于阈值时产生该告警。 用户可通过“系统设置 > 阈值配置”修改阈值。 当主机磁盘使用率小于或等于阈值时,告警恢复。
ALM-12012 NTP服务异常(2.x及以前版本) 告警解释 当节点NTP服务无法与主OMS节点NTP服务正常同步时间时产生该告警。 当节点NTP服务与主OMS节点NTP服务正常同步时间时恢复该告警。 告警属性 告警ID 告警级别 可自动清除 12012 严重 是 告警参数 参数名称
版本支持公告 MRS集群版本生命周期
ALM-24001 Flume Agent异常(2.x及以前版本) 告警解释 Flume Agent监控模块对Flume Agent状态进行监控,当Flume Agent进程故障时,系统产生此告警。 当检测到Flume Agent进程故障恢复,且告警处理完成时,告警恢复。 告警属性
ALM-12004 OLdap资源异常(2.x及以前版本) 告警解释 当Manager中的Ldap资源异常时,系统产生此告警。 当Manager中的Ldap资源恢复,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12004 严重 是 告警参数 参数名称 参数含义
ALM-14010 NameService服务异常(2.x及以前版本) 告警解释 系统每180秒周期性检测NameService服务状态,当检测到NameService服务不可用时产生该告警。 NameService服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除
ALM-12001 审计日志转储失败(2.x及以前版本) 告警解释 根据本地历史数据备份策略,集群的审计日志需要转储到第三方服务器上。如果转储服务器满足配置条件,审计日志可以成功转储。审计日志转储失败,系统产生此告警。如果第三方服务器的转储目录磁盘空间不足,或者用户修改了转储服务
ALM-12040 系统熵值不足(2.x及以前版本) 告警解释 每天零点系统检查熵值,每次检查都连续检查五次,首先检查是否启用并正确配置了rng-tools工具,如果没有配置,则继续检查当前熵值,如果五次均小于500,则上报故障告警。 当检查到真随机数方式已经配置或者伪随机数方式
ALM-19006 HBase容灾同步失败(2.x及以前版本) 告警解释 当同步容灾数据到备集群失败时,发送该告警。 当容灾数据同步成功后,告警清除。 告警属性 告警ID 告警级别 可自动清除 19006 严重 是 告警参数 参数名称 参数含义 ServiceName 产生告警的服务名称。
ALM-12006 节点故障(2.x及以前版本) 告警解释 Controller按30秒周期检测NodeAgent状态。当Controller连续三次未接收到某个NodeAgent的状态报告时,产生该告警。 当Controller可以正常接收时,告警恢复。 告警属性 告警ID 告警级别
ALM-12038 监控指标转储失败(2.x及以前版本) 告警解释 用户在MRS Manager界面配置监控指标转储后,转储失败时产生该告警。 转储成功后,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12038 严重 是 告警参数 参数名称 参数含义 ServiceName
ALM-12034 周期备份任务失败(2.x及以前版本) 告警解释 周期备份任务执行失败,则上报该告警,如果下次备份执行成功,则发送恢复告警。 告警属性 告警ID 告警级别 可自动清除 12034 严重 是 告警参数 参数名称 参数含义 ServiceName 产生告警的服务名称。
ALM-38001 Kafka磁盘容量不足(2.x及以前版本) 告警解释 系统按60秒周期检测Kafka磁盘空间使用率,并把实际磁盘使用率和阈值相比较。磁盘使用率默认提供一个阈值范围。当检测到磁盘使用率高于阈值时产生该告警。 用户可通过“系统设置 > 阈值配置”修改阈值。 当Ka
对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败 Spark shuffle异常处理 父主题: 使用Spark2x(MRS 3.x及之后版本)
查询对应版本元数据 功能介绍 查询对应版本元数据。如果参数里指定集群id,则可查询集群更新过补丁之后的最新元数据。 调用方法 请参见如何调用API。 URI GET /v1.1/{project_id}/metadata/versions/{version_name} 表1 路径参数
Config.getDefaultRealm(Config.java:1029) ... 22 more 回答 失败原因是C80SPC200版本开始,创建集群不再替换/etc/krb5.conf文件,改为通过配置参数指定到客户端内krb5路径,而HiBench并不引用客户端配置文件。
ALM-19000 HBase服务不可用(2.x及以前版本) 告警解释 告警模块按30秒周期检测HBase服务状态。当HBase服务不可用时产生该告警。 HBase服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除 19000 致命 是 告警参数 参数名称 参数含义
ALM-18003 NodeManager不健康(2.x及以前版本) 告警解释 系统每30秒周期性检测异常NodeManager节点数,并把异常节点数和阈值相比较。“非健康的节点数”指标默认提供一个阈值范围。当检测到“非健康的节点数”的值超出阈值范围时产生该告警。 当“非健康的节
ALM-14000 HDFS服务不可用(2.x及以前版本) 告警解释 系统每30秒周期性检测NameService的服务状态,当检测到所有的NameService服务都异常时,就会认为HDFS服务不可用,此时产生该告警。 至少一个NameService服务正常后,系统认为HDFS服务恢复,告警清除。
是,执行4.d。 否,执行5。 按ALM-18002 NodeManager心跳丢失(2.x及以前版本)或ALM-18003 NodeManager不健康(2.x及以前版本)提供的步骤处理该故障,故障修复后检查本告警是否恢复。 是,处理完毕。 否,执行5。 收集故障信息。 在MRS