检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
JobHistory进程堆内存使用超出阈值”告警,且按照告警参考处理无效。 问题现象 集群出现告警“ALM-43006 JobHistory进程堆内存使用超出阈值”并且按照指导处理以后,运行一段时间又会出现同样的告警。 原因分析 可能存在JobHistory内存泄露问题,需要安装相应的补丁修复。
Join时需要注意小表不能过大,如果小表将内存基本用尽,会使整个系统性能下降甚至出现内存溢出的异常。 Sort Merge Bucket Map Join 使用Sort Merge Bucket Map Join必须满足以下2个条件: join的两张表都很大,内存中无法存放。 两张表都按照join
Coordinator承担缓存元数据,解析SQL执行计划,和响应客户端请求的功能主要使用jvm内存,而Executor承担数据读写,算子计算等功能,主要使用offheap内存;拆分后可有效提升内存使用率;另外,所有的SQL执行统计均在Coordinator中记录,分离后可通过访问几个C
及其Job。StreamingContext通过运行任务处理Executor内存中的Block来执行Job。 周期性地设置检查点(橙色箭头) 为了容错的需要,StreamingContext会周期性地设置检查点,并保存到外部文件系统中。 容错性 Spark及其RDD允许无缝地处理
间单位为毫秒。 开启内存软隔离 开启 关闭 租户是否可以超量占用内存资源 如果关闭内存软隔离,系统检测到租户内存使用超出限制后将立即取消租户组内内存占用最大的若干个任务。 如果开启内存软隔离,若该系统有空闲内存资源则该租户在超出内存的限制后可继续使用系统内存;只有当集群资源紧张时
出现此告警时,说明当前PolicySync设置的堆内存无法满足当前PolicySync进程所需的堆内存,建议根据2查看“PolicySync堆内存使用率”,调整“GC_OPTS”参数中“-Xmx”的值为“PolicySync使用的堆内存大小”的两倍(可根据实际业务场景进行修改)。
cpu-vcores”设置当前节点上NodeManager可使用的虚拟CPU核数,建议按节点实际逻辑核数的1.5到2倍配置。“yarn.nodemanager.resource.memory-mb”设置当前节点上NodeManager可使用的物理内存大小,建议按节点实际物理内存大小的75%~90%配置。
cpu-vcores”设置当前节点上NodeManager可使用的虚拟CPU核数,建议按节点实际逻辑核数的1.5到2倍配置。“yarn.nodemanager.resource.memory-mb”设置当前节点上NodeManager可使用的物理内存大小,建议按节点实际物理内存大小的75%配置。
threshold 内存合并进程的文件数阈值。累计文件数达到阈值时会发起内存合并及溢出到磁盘。小于等于0的值表示该阈值不生效且仅基于ramfs的内存使用情况来触发合并。 1000 mapreduce.reduce.shuffle.merge.percent 发起内存合并的使用率阈值,
threshold 内存合并进程的文件数阈值。累计文件数达到阈值时会发起内存合并及溢出到磁盘。小于等于0的值表示该阈值不生效且仅基于ramfs的内存使用情况来触发合并。 1000 mapreduce.reduce.shuffle.merge.percent 发起内存合并的使用率阈值,
出现此告警时,说明当前RangerAdmin设置的堆内存无法满足当前RangerAdmin进程所需的堆内存,建议根据2查看“RangerAdmin堆内存使用率”,调整“GC_OPTS”参数中“-Xmx”的值为“RangerAdmin使用的堆内存大小”的两倍(可根据实际业务场景进行修改)。
资源计划(按时间段设置Task节点数量范围): 用户可以按时间段设置集群Task节点的最大数量和最小数量,当集群Task节点数不满足当前时间资源计划节点范围要求时,系统触发扩容或缩容。 用户最多可以为一个集群设置5条资源计划。 资源计划周期以天为单位,起始时间与结束时间可以设置为00:0
MapReduce任务长时间无进展 问题 MapReduce任务长时间无进展。 回答 一般是因为内存太少导致的。当内存较小时,任务中拷贝map输出的时间将显著增加。 为了减少等待时间,您可以适当增加堆内存空间。 任务的配置可根据mapper的数量和各mapper的数据大小来进行优化。根据输
出现该问题的主要原因为RegionServer分配的内存过小、Region数量过大导致在运行过程中内存不足,服务端对客户端的响应过慢。在RegionServer的配置文件“hbase-site.xml”中需要调整如下对应的内存分配参数。 表1 RegionServer内存调整参数 参数 描述 默认值 GC_OPTS
MapReduce任务长时间无进展 问题 MapReduce任务长时间无进展。 回答 一般是因为内存太少导致的。当内存较小时,任务中拷贝map输出的时间将显著增加。 为了减少等待时间,您可以适当增加堆内存空间。 任务的配置可根据mapper的数量和各mapper的数据大小来进行优化。根据输
出现该问题的主要原因为RegionServer分配的内存过小、Region数量过大导致在运行过程中内存不足,服务端对客户端的响应过慢。在RegionServer的配置文件“hbase-site.xml”中需要调整如下对应的内存分配参数。 表1 RegionServer内存调整参数 参数 描述 默认值 GC_OPTS
确定”。 出现此告警时,说明当前flume server设置的堆内存无法满足当前数据传输所需的堆内存,建议堆内存调整为: channel capacity * 最大单条数据大小*通道个数,但xmx参数值不能超过节点剩余内存。 重启受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。
存配置。 出现此告警时,说明当前UserSync设置的堆内存无法满足当前UserSync进程所需的堆内存,建议根据2查看“UserSync堆内存使用率”,调整“GC_OPTS”参数中“-Xmx”的值为“UserSync使用的堆内存大小”的两倍(可根据实际业务场景进行修改)。 重启
并保存配置。 出现此告警时,说明当前TagSync设置的堆内存无法满足当前TagSync进程所需的堆内存,建议根据2查看“TagSync堆内存使用率”,调整“GC_OPTS”参数中“-Xmx”的值为“TagSync使用的堆内存大小”的两倍(可根据实际业务场景进行修改)。 重启受
产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 导致Oozie调度任务响应变慢直至服务不可用。 可能原因 该节点Oozie实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight