检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
阈值设置 > 待操作集群的名称 > 主机 > 网络读信息 > 读包错误率”修改阈值。 平滑次数为1,网络读包错误率小于或等于阈值时,告警恢复;平滑次数大于1,网络读包错误率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12047 重要 是 告警参数 参数名称
如何处理blob.storage.directory配置/home目录时启动yarn-session失败 问题 当用户设置“blob.storage.directory”为“/home”时,用户没有权限在“/home”下创建“blobStore-UUID”的文件,导致yarn-session启动失败。
的垃圾回收(GC)占用时间,当检测到DataNode进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 14015 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
阈值时,系统将产生此告警。 平滑次数可配置,当平滑次数为1,SlapdServer CPU使用率小于或等于阈值时,该告警恢复。当平滑次数大于1,SlapdServer CPU使用率小于或等于阈值的90%时,该告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 25008 紧急(默认阈值为85%)
TS参数,配置建议如下:Worker数量为20个时,“-Xmx”设置为不小于1G;Worker超过100个时,“-Xmx”设置为不小于5G,以此类推。 重启受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。 否,执行6。 服务或实例重启过程中,业务会出现中断,待服务或实例重启成功后业务恢复。
功能介绍 为指定集群批量删除标签。 一个集群上最多有20个标签。 此接口为幂等接口: 删除时,如果删除的标签不存在,默认处理成功,删除时不对标签字符集范围做校验。Key长度为128个字符,value为255个字符。删除时tags结构体不能缺失,key不能为空,或者空字符串。 接口约束 无
DataNode堆内存使用率超过阈值”。 是,参考ALM-14008 DataNode堆内存使用率超过阈值进行处理。 否,执行7。 观察界面告警是否清除。 是,处理完毕。 否,执行8。 收集故障信息。 在FusionInsight Manager首页,选择“运维 > 日志 > 下载”。
阈值设置 > 待操作集群的名称 > 主机 > 网络读信息 > 读包丢包率”修改阈值。 平滑次数为1,网络读包丢包率小于或等于阈值时,告警恢复;平滑次数大于1,网络读包丢包率小于或等于阈值的90%时,告警恢复。 该告警检测默认关闭。若需要开启,请根据“检查系统环境”步骤,确认该系统是否可以开启该告警发送。
际情况调大。 观察界面告警是否清除。 是,处理完毕。 否,执行2。 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
如何处理blob.storage.directory配置/home目录时启动yarn-session失败 问题 当用户设置“blob.storage.directory”为“/home”时,用户没有权限在“/home”下创建“blobStore-UUID”的文件,导致yarn-session启动失败。
CPU使用率超过阈值”告警。 是,执行9。 否,执行11。 按照ALM-12016 CPU使用率超过阈值告警处理文档,处理该告警。 处理完12016告警后,等待10分钟,查看14022告警是否自动消除。 是,处理结束。 否,执行11。 查看NameNode节点的内存是否设置过小。 在FusionInsight
当连续5次检测到RangerAdmin实例直接内存使用率超出阈值(最大内存的80%)时,产生该告警。当RangerAdmin直接内存使用率小于或等于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45278 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
)占用时间,当检测到JobHistoryServer进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 18012 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
系统每60秒周期性检测Oozie进程的垃圾回收(GC)占用时间,当检测到Oozie进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。垃圾回收(GC)时间小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 17007 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
务,可能会导致大量的业务查询请求超时。 可能原因 Broker用于处理请求的线程数配置不合理。 慢盘故障。 Broker磁盘IO繁忙。 Broker的分区分布不均匀,存在热点。 处理步骤 检查Broker用于处理请求的线程数配置是否不合理。 登录FusionInsight Manager,选择“集群
NameNode堆内存使用率超过阈值”。 是,查看“ALM-14007 NameNode堆内存使用率超过阈值”进行处理。 否,执行7。 观察界面告警是否清除。 是,处理完毕。 否,执行8。 收集故障信息。 在FusionInsight Manager首页,选择“运维 > 日志 > 下载”。
圾回收(GC)占用时间,当连续5次检测到TagSync进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。垃圾回收(GC)时间小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45288 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
的垃圾回收(GC)占用时间,当检测到NameNode进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 14014 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
使用率,当检测到HetuEngine计算实例的CPU负载使用率大于90%时产生该告警。 HetuEngine计算实例运行的CPU负载使用率小于等于90%时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 45005 重要 是 告警参数 类别 参数名称 参数含义 定位信息
系统每60秒周期性检测Oozie服务堆内存使用状态,当检测到Oozie实例堆内存使用率超出阈值(最大内存的95%)时产生该告警。堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 17004 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。