检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-14021 NameNode RPC处理平均时间超过阈值 告警解释 系统每30秒周期性检测NameNode的RPC处理平均时间,并把实际的NameNode的RPC处理平均时间和阈值(默认为100ms)相比较。当检测到NameNode的RPC处理平均时间连续多次(默认为10次)超出阈值范围时,产生该告警。
Impalad的xmx内存小于catalog的xmx内存,Impalad节点持续报Full GC,SQL一直处于created状态 问题 Impalad的xmx内存小于Catalog的xmx内存,catalog长期运行,内存已经超过了impalad的xmx 内存,Impalad节点持续报Full
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 OBS write接口调用失败数高于阈值,会影响上层大数据计算业务的正常执行,导致某些计算任务的执行失败。 可能原因 OBS服务端出现执行异常或严重超时。 处理步骤 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置
threshold”的阈值使其小于“附加信息”中的“available Memory =”的值。 如果“附加信息”中包含“available vCores =”,调整“yarn.queue.vcore.alarm.threshold”的阈值使其小于“附加信息”中的“available
产生该告警表示HBase服务的znode的数量使用率已经超过规定的阈值,如果不及时处理,可能会导致问题级别升级为紧急,最终导致数据写入失败。 可能原因 HBase配置了容灾并且容灾存在数据同步失败或者同步速度慢; HBase集群存在大量的WAL文件在进行split。 处理步骤 检查znode数量配额和使用量 在FusionInsight
记录该IP地址,若已绑定弹性公网IP请跳过该步骤。 判断私钥文件是否为.ppk格式。 是,执行10。 否,执行6。 运行PuTTY。 在“Actions”区域,单击“Load”,并导入创建弹性云服务器时使用的密钥对的私钥文件。 导入时注意确保导入的格式要求为“All files (*
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 OBS read接口调用失败数高于阈值,会影响上层大数据计算业务的正常执行,导致某些计算任务的执行失败。 可能原因 OBS服务端出现执行异常或严重超时。 处理步骤 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置
使用Hive加载HDFS数据并分析图书评分情况 应用场景 MRS离线处理集群,可对海量数据进行分析和处理,形成结果数据,供下一步数据应用使用。 离线处理对处理时间要求不高,但是所处理数据量较大,占用计算存储资源较多,通常通过Hive/SparkSQL引擎或者MapReduce/Spark2x实现。
产生该告警表示HBase服务的znode的容量使用率已经超过规定的阈值,如果不及时处理,可能会导致问题级别升级为紧急,影响数据写入。 可能原因 HBase配置了容灾并且容灾存在数据同步失败或者同步速度慢; HBase集群存在大量的WAL文件在进行split。 处理步骤 检查znode容量配置和使用量 在FusionInsight
执行distcp命令报错如何处理 问题 为何distcp命令在安全集群上执行失败并发生异常? 客户端出现异常: Invalid arguments:Unexpected end of file from server 服务器端出现异常: javax.net.ssl.SSLException:Unrecognized
Kafka Topic监控页签在Manager页面不显示如何处理? 问: Kafka Topic监控页签在Manager页面不显示怎么办? 答: 分别登录集群Master节点,并切换用户为omm。 进入目录“/opt/Bigdata/apache-tomcat-7.0.78/we
购买MRS集群提交订单时报无效认证如何处理? 问: 购买MRS集群,提交订单时,报无效认证,怎么办? 答: 通过管理人员检查API请求日志发现告警信息为细粒度策略中未赋予IAM用户“mrs:cluster:create”的权限导致。 分析原因为当前IAM用户归属在多个用户组内,多
执行distcp命令报错如何处理 问题 为何distcp命令在安全集群上执行失败并发生异常? 客户端出现异常: Invalid arguments:Unexpected end of file from server 服务器端出现异常: javax.net.ssl.SSLException:Unrecognized
产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 MonitorServer证书文件已过期,功能受限,Flume客户端将无法访问Flume服务端。 可能原因 MonitorServer证书文件已过期。 处理步骤 查看告警信息。 登录FusionInsight Manager首页,选择“运维
系统每30秒周期性检测Yarn服务堆内存使用状态,当检测到NodeManager实例堆内存使用率超出阈值(最大内存的95%)时产生该告警。 堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 18018 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
结束位置:截取结束位置,不确定字符串长度时,可指定为-1表示被截取字段的末尾。 输出字段类型:输出字段的类型。 输出字段长度:配置字段长度,字段值实际长度太长则按配置的长度截取,“输出字段类型”为“CHAR”时实际长度不足则空格补齐,“输出字段类型”为“VARCHAR”时实际长度不足则不补齐。 map
结束位置:截取结束位置,不确定字符串长度时,可指定为-1表示被截取字段的末尾。 输出字段类型:输出字段的类型。 输出字段长度:配置字段长度,字段值实际长度太长则按配置的长度截取,“输出字段类型”为“CHAR”时实际长度不足则空格补齐,“输出字段类型”为“VARCHAR”时实际长度不足则不补齐。 map
condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 OBS操作被流控后,会影响上层大数据计算业务的正常执行,导致某些计算任务的执行失败。 可能原因 请求OBS接口频率太高。 处理步骤 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > meta
对系统的影响 用户无法执行新的Storm任务。 可能原因 集群中Supervisor处于异常状态。 集群中Supervisor的状态正常,但是处理能力不足。 处理步骤 检查Supervisor状态 选择“集群 > 待操作集群的名称 > 服务 > Storm > 实例”,进入Storm实例管理页面。
等待2分钟,查看告警是否消失。 是,处理完毕。 否,执行12。 执行命令find / -xdev -size +500M -exec ls -l {} \;,查看该节点上超过500MB的文件,查看该磁盘中,是否有误写入的大文件存在。 是,执行11。 否,执行12。 处理该误写入的文件,并等待2分钟,查看告警是否清除。