检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
对系统的影响 HDFS DataNode堆内存使用率过高,会影响到HDFS的数据读写性能。 可能原因 HDFS DataNode配置的堆内存不足。 处理步骤 清除无用文件。 以root用户登录HDFS客户端,用户密码为安装前用户自定义,请咨询系统管理员。
在“运维 > 告警 > 阈值设置 > Kudu”,找到该告警的阈值,再对比集群Kudu实例的内存监控项,看是否超过阈值,处理内存使用率过高的问题,或修改阈值。 在“运维 > 告警”页签,查看该告警是否恢复。 是,处理完毕。 否,执行4。
可能原因 存在KuduTserver实例内存使用过高。 处理步骤 处理Kudu实例异常 在FusionInsight Manager首页,选择“运维 > 告警”页面,找到“ALM-29107 Tserver进程内存使用百分比超过阈值”告警,查看告警来源。
对系统的影响 JDBCServer进程直接内存使用率过高,会影响JDBCServer进程运行的性能,甚至造成内存溢出导致JDBCServer进程不可用。 可能原因 该节点JDBCServer进程直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。
对系统的影响 JDBCServer进程堆内存使用率过高,会影响JDBCServer进程运行的性能,甚至造成内存溢出导致JDBCServer进程不可用。 可能原因 该节点JDBCServer进程堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。
对系统的影响 JDBCServer进程非堆内存使用率过高,会影响JDBCServer进程运行的性能,甚至造成内存溢出导致JDBCServer进程不可用。 可能原因 该节点JDBCServer进程非堆内存使用率过大,或配置的非堆内存不合理,导致使用率超过阈值。
对系统的影响 业务延迟: 主机内存使用率过高时,可能会导致业务进程运行处理缓慢、业务延迟。 业务失败:主机内存使用率过高时,可能会导致业务进程内存溢出,可能会导致作业运行失败。 可能原因 内存配置无法满足业务需求。内存使用率达到上限。 处理步骤 对系统进行扩容。
随着新业务的上线,集群规模不断扩大,Master节点承担的管理负荷也越来越高,企业用户面临CPU负载过高,内存使用率超过阈值的问题。
对系统的影响 业务失败:主机PID使用率过高时,无法分配PID给新的业务进程,可能会导致作业运行失败。 可能原因 节点同时运行的进程过多,需要扩展pid_max值。 处理步骤 扩展pid_max值。
ContainersLauncher #14 | Stack trace: ExitCodeException exitCode=1: | ContainerExecutor.java:300 回答 由于当前数据量较大,有50T数据导入,超过了shuffle的规格,shuffle负载过高
内存不足导致HDFS NameNode启动失败 问题背景与现象 场景一:重启HDFS服务后,HDFS的状态为Bad,且NameNode实例状态异常,并且很久没有退出安全模式。 场景二:NameNode启动时,启动超时后启动失败,原生页面无法打开。 原因分析 在NameNode运行日志
ContainersLauncher #14 | Stack trace: ExitCodeException exitCode=1: | ContainerExecutor.java:300 回答 由于当前数据量较大,有50T数据导入,超过了shuffle的规格,shuffle负载过高
Hive任务执行中报栈内存溢出导致任务执行失败 问题背景与现象 Hive执行查询操作时报错Error running child : java.lang.StackOverflowError,具体报错信息如下: FATAL [main] org.apache.hadoop.mapred.YarnChild
降低MapReduce客户端运行任务失败率 配置场景 当网络不稳定或者集群IO、CPU负载过高的情况下,通过调整如下参数值,降低客户端应用的失败率,保证应用的正常运行。 配置描述 在客户端的“mapred-site.xml”配置文件中调整如下参数。
可能原因 Doris数据写入频率过高导致compaction操作异常、或Tablet迁移失败等。
降低MapReduce客户端运行任务失败率 配置场景 当网络不稳定或者集群IO、CPU负载过高的情况下,通过调整如下参数值,降低客户端应用的失败率,保证应用的正常运行。 配置描述 在客户端的“mapred-site.xml”配置文件中调整如下参数。
对系统的影响 HetuEngine计算实例任务失败率过高,会影响业务的正常运行,需及时排查问题并处理。 可能原因 计算实例资源配置过小。 业务存在大SQL任务,占用过多计算资源,导致其他提交的任务无资源可用,整个计算实例响应变慢,造成任务积压。
对系统的影响 IoTDBServer进程RPC过高,会影响IoTDBServer进程数据读写性能下降。 可能原因 IoTDBServer RPC有一个请求处理时长超过阈值,需要进一步分析日志查看。 处理步骤 收集故障信息。
cache table使用指导 问题 cache table的作用是什么?cache table时需要注意哪些方面? 回答 Spark SQL可以将表cache到内存中,并且使用压缩存储来尽量减少内存压力。通过将表cache,查询可以直接从内存中读取数据,从而减少读取磁盘带来的内存开销
ALM-12018 内存使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测内存使用率,并把实际内存使用率和阈值相比较。内存使用率默认提供一个阈值。当检测到内存使用率超过阈值时产生该告警。 当主机内存使用率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别