检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-18015 JobHistoryServer直接内存使用率超过阈值 告警解释 系统每30秒周期性检测MapReduce服务直接内存使用状态,当检测到JobHistoryServer实例直接内存使用率超出阈值(最大内存的90%,默认阈值)时,产生该告警。 直接内存使用率小于阈值时,告警恢复。
ALM-38008 Kafka数据目录状态异常 告警解释 系统每60秒周期性检测Kafka数据目录状态,当检测到某数据目录状态异常时产生该告警。 平滑次数为1,当数据目录状态恢复正常后,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 38008 重要 是 告警参数 参数名称
ALM-43007 JobHistory2x进程非堆内存使用超出阈值 告警解释 系统每30秒周期性检测JobHistory2x进程非堆内存使用状态,当检测到JobHistory2x进程非堆内存使用率超出阈值(最大内存的95%)时产生该告警。 MRS 3.3.0-LTS及之后的版本
ALM-45180 OBS read接口调用失败数高于阈值 告警解释 系统每30秒周期性检测OBS read接口调用失败数是否高于阈值,当检测到大于所设置阈值时就会产生该告警 。 当OBS read接口调用失败数小于阈值时,该告警会自动清除。 告警属性 告警ID 告警级别 是否自动清除
ALM-45288 TagSync垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测TagSync进程的垃圾回收(GC)占用时间,当连续5次检测到TagSync进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。垃圾回收(GC)时间小于阈值时,告警恢复。 告警属性
ALM-45432 ClickHouse用户同步进程故障 告警解释 系统每5分钟周期性检测用户角色同步进程的状态,当检测到ClickHouse服务用户角色同步进程故障或者用户角色同步失败,产生该告警。 当用户角色同步进程正常并且用户角色同步功能正常后,告警自动清除。 告警属性 告警ID
ALM-45434 ClickHouse组件数据表中存在单副本 告警解释 ClickHouse组件开启自定义逻辑集群后,当检测到某个自定义逻辑集群存在单副本时,系统产生此告警。 当检测到自定义逻辑集群使用多副本时,告警自动清除。 告警属性 告警ID 告警级别 是否自动清除 45434 重要 是
ALM-45585 IoTDB服务不可用 告警解释 系统每300秒周期性检测IoTDB服务状态,当检测到IoTDB服务不可用时产生该告警。IoTDB服务恢复时,告警清除。 告警属性 告警ID 告警级别 是否自动清除 45585 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
ALM-45586 IoTDBServer堆内存使用率超过阈值 告警解释 系统每60秒周期性检测IoTDBServer进程堆内存使用状态,当检测到IoTDBServer进程堆内存使用率超出阈值(最大内存的90%)时产生该告警。 告警属性 告警ID 告警级别 是否自动清除 45586
ALM-45591 ConfigNode直接内存使用率超过阈值 告警解释 系统每60秒周期性检测ConfigNode进程直接内存使用状态,当连续5次检测到ConfigNode实例直接内存使用率超出阈值时,产生该告警,即当前ConfigNode设置的直接内存无法满足当前Config
ALM-12015 设备分区文件系统只读(2.x及以前版本) 告警解释 系统周期性进行扫描,如果检测到挂载服务目录的设备分区变为只读模式(如设备有坏扇区、文件系统存在故障等原因),则触发此告警。 系统如果检测到挂载服务目录的设备分区的只读模式消失(比如文件系统修复为读写模式、设备拔出、设备被重新格式化等原因),则告警恢复。
ALM-26053 Storm Slot使用率超过阈值(2.x及以前版本) 告警解释 系统每60秒周期性检测Slot使用率,并把实际Slot使用率和阈值相比较。当检测到Slot使用率高于阈值时产生该告警。 用户可通过“系统设置 > 阈值配置”修改阈值。 当Slot使用率小于或等于阈值时,告警恢复。
ALM-14003 丢失的HDFS块数量超过阈值 告警解释 系统每30秒周期性检测丢失的块数量,并把丢失的块数量和阈值相比较。丢失的块数量指标默认提供一个阈值范围。当检测到丢失的HDFS块数量超出阈值范围时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称
ALM-14028 待补齐的块数超过阈值 告警解释 系统每30秒周期性检测待补齐的块数量,并把待补齐的块数量和阈值相比较。需补齐的块数量指标默认提供一个阈值范围。当检测到丢失的块数量超出阈值范围时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群名称 > HDFS
ALM-17007 Oozie进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测Oozie进程的垃圾回收(GC)占用时间,当检测到Oozie进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。垃圾回收(GC)时间小于阈值时,告警恢复。 告警属性 告警ID
ALM-19014 在ZooKeeper上的容量配额使用率严重超过阈值 告警解释 系统每120秒周期性检测HBase服务的znode使用情况,当检测到HBase服务的znode容量使用率超出紧急告警的阈值(默认90%)时产生该告警。 当znode的容量使用率小于严重告警的阈值时,告警恢复。
ALM-19016 在ZooKeeper上的数量配额使用率严重超过阈值 告警解释 系统每120秒周期性检测HBase服务的znode使用情况,当检测到HBase服务的znode数量使用率超出紧急告警的阈值(默认90%)时产生该告警。 当znode的数量使用率小于严重告警的阈值时,告警恢复。
ALM-23004 Loader堆内存使用率超过阈值 告警解释 系统每60秒周期性检测Loader服务堆内存使用状态,当连续10次检测到Loader实例堆内存使用率超出阈值(最大内存的95%)时产生该告警。堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除
ALM-23006 Loader直接内存使用率超过阈值 告警解释 系统每30秒周期性检测Loader服务直接内存使用状态,当连续5次检测到Loader实例直接内存使用率超出阈值(最大内存的80%)时,产生该告警。当Loader直接内存使用率小于或等于阈值时,告警恢复。 告警属性 告警ID
0_TROS_Tools_patch_20240430补丁基本信息及解决问题列表请参考补丁基本信息。 安装补丁前提条件 集群有以下要求: 请保持网络畅通,请勿随意拔插网线,避免因网络问题导致升级失败。 集群中各组件服务正常、各实例正常、无故障、无退服的实例。 安装补丁过程中对现行系统的影响 升级过程中会重启OMS,会导致MRS