检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
“定制 > CPU和内存 > HMaster堆内存使用率与直接内存使用率统计” ,单击“确定”,查看HBase服务进程使用的直接内存是否已达到HBase服务进程设定的最大直接内存的90%。 是,执行4。 否,执行8。 图1 HMaster堆内存使用率与直接内存使用率统计 在FusionInsight
选择“定制 > 资源”,勾选“JobHistoryServer堆内存使用百分比统计”。查看堆内存使用情况。 查看JobHistoryServer使用的堆内存是否已达到JobHistoryServer设定的最大堆内存的95%。 是,执行4。 否,执行6。 在FusionInsight
租户资源 > 租户内存使用率超过阈值”,查看并记录该告警的阈值。 选择“集群 > 服务 > Doris > 实例”,选择上报告警的BE实例,单击“图表”,在“图表分类”中选择“租户资源”,查看“租户内存使用大小”图表中实际的内存使用大小是否大于2查看到的阈值,并记录内存使用大小超过阈值的租户名。
Nimbus堆内存使用率超过阈值 > 定位信息”,查看告警上报的实例的HostName。 单击“组件管理 > Storm > 实例 > Nimbus(对应上报告警实例HostName) > 定制 > Nimbus堆内存使用率”,查看堆内存使用情况。 查看Nimbus使用的堆内存是否已达到Nimbus设定的最大堆内存的80%。
NameNode非堆内存使用率超过阈值 告警解释 系统每30秒周期性检测HDFS NameNode非堆内存使用率,并把实际的HDFS NameNode非堆内存使用率和阈值相比较。HDFS NameNode非堆内存使用率指标默认提供一个阈值范围。当HDFS NameNode非堆内存使用率超出阈值范围时,产生该告警。
CCWorker(角色)”,查找“memory_limit”参数,查看当前集群上CCWorker实例的最大可用内存配置值。是否存在业务并发、数据量有长期上涨,且该告警未能自动清除。 是,执行4。 否,执行3。 可暂时忽略,业务高峰过后,告警将会自动清除。 请适当调大2中的最大可用内存值,单击“保存”。
择“定制 > CPU和内存 > HMaster堆内存使用率与直接内存使用率统计”,单击“确定”,查看HBase服务进程使用的堆内存是否已达到HBase服务进程设定的最大堆内存的90%。 是,执行4。 否,执行6。 图1 HMaster堆内存使用率与直接内存使用率统计 在FusionInsight
ALM-14038 Router堆内存使用率超过阈值 告警解释 系统每30秒周期性检测HDFS Router堆内存使用大小和能够分配的最大堆内存大小,计算堆内存使用大小和能够分配的最大堆内存大小的比值得到堆内存使用率,并把实际的HDFS Router堆内存使用率和阈值相比较。HDFS
单击“启动实例”,根据界面提示启动实例。 等待2分钟,查看告警是否消失。 是,处理完毕。 否,执行8。 查看业务是否存在大SQL任务 在“计算实例”页签,展开对应租户下的实例,单击计算实例“WebUI”列的“LINK”,查看所有任务的运行情况。 在“Sort”列选择“Execution
选择“定制 > 资源”,勾选“NodeManager内存使用率”。查看非堆内存使用情况。 图1 定制NodeManager内存使用率 查看NodeManager使用的非堆内存是否已达到NodeManager设定的最大非堆内存的90%。 是,执行4。 否,执行6。 在FusionInsight
executor内存不足导致查询性能下降 现象描述 在不同的查询周期内运行查询功能,查询性能会有起伏。 可能原因 在处理数据加载时,为每个executor程序实例配置的内存不足,可能会产生更多的Java GC(垃圾收集)。当GC发生时,会发现查询性能下降。 定位思路 在Spark
JobHistory2x进程非堆内存使用率过高,会影响JobHistory2x进程运行的性能,甚至造成内存溢出导致JobHistory2x进程不可用, 进程不可用时仅会造成无法查询Spark任务历史执行记录。 可能原因 该节点JobHistory2x进程非堆内存使用率过大,或配置的非堆内存不合理,导致使用率超过阈值。
Manager界面,选择“运维 > 告警 > 告警”查看是否存在“ALM-12033 慢盘故障”告警。 是,查看并记录告警详细信息中的磁盘信息,执行6。 否,执行5。 获取发生慢操作的磁盘信息。 使用omm用户登录1中获取的DataNode节点IP地址,使用如下命令查看运行日志。 cd /var/log/Bigdata/hdfs/dn/
出现此告警时,说明当前Doris实例设置的堆内存无法满足当前数据传输所需的堆内存,建议打开实例监控界面,在页面上查看“Doris堆内存资源状况”监控图表,观察该监控图表中“Doris使用的堆内存大小”的变化趋势,根据当前堆内存使用的大小,调整“-Xmx”的值为当前堆内存使用量的两倍(或根据实际情况进行调整)。
Spark动态分区插入场景内存优化 操作场景 SparkSQL在往动态分区表中插入数据时,分区数越多,单个Task生成的HDFS文件越多,则元数据占用的内存也越多。这就导致程序GC(Gabage Collection)严重,甚至发生OOM(Out of Memory)。 经测试证
检查Yarn页面的内存和vcore使用情况。 查看Yarn原生页面的Memory Used|Memory Total和VCores Used|VCores Total,看是否已经到达或者接近最大值。 是,执行2。 否,执行5。 判断当前任务提交数量。 查看当前运行中的任务是否为正常的提交频率。
资源”,勾选“ResourceManager内存使用率”。查看堆内存使用情况。 图1 定制ResourceManager内存使用率 查看ResourceManager使用的堆内存是否已达到ResourceManager设定的最大堆内存的95%。 是,执行4。 否,执行6。 在FusionInsight
NameNode堆内存使用率超过阈值 告警解释 系统每30秒周期性检测HDFS NameNode堆内存使用率,并把实际的HDFS NameNode堆内存使用率和阈值相比较。HDFS NameNode堆内存使用率指标默认提供一个阈值范围。当HDFS NameNode堆内存使用率超出阈值范围时,产生该告警。
DataNode非堆内存使用率超过阈值 告警解释 系统每30秒周期性检测HDFS DataNode非堆内存使用率,并把实际的HDFS DataNode非堆内存使用率和阈值相比较。HDFS DataNode非堆内存使用率指标默认提供一个阈值范围。当HDFS DataNode非堆内存使用率超出阈值范围时,产生该告警。
制 > JDBCServer2x内存使用率统计”,单击“确定”,查看JDBCServer2x进程使用的堆内存是否已达到JDBCServer2x进程设定的最大堆内存的阈值(默认95%)。 是,执行3。 否,执行7。 图1 JDBCServer2x内存使用率统计 在FusionInsight