检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
是,处理结束。 否,执行11。 查看NameNode节点的内存是否设置过小。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,查看是否有该NameNode节点的“ALM-14007 HDFS NameNode堆内存使用率超过阈值”告警。 是,执行12。 否,执行14。
GC时间超出阈值,会影响JDBCServer进程运行的性能,甚至造成JDBCServer进程不可用。 可能原因 该节点JDBCServer进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 登录MRS集群详情页面,选择“告警管理”。 选中“告警ID”为“4301
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 ZooKeeper进程的垃圾回收时间过长,可能影响该ZooKeeper进程响应时间变长,可能导致上层组件(例如Yarn、Flink、Spark等)业务失败。 可能原因 该节点ZooKeeper实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。
对于不同业务负载的业务,需要分开集群部署,便于不同负载的业务进行资源隔离。 集群并发 由于ClickHouse单个SQL会最大化使用每个主机上的CPU/内存/IO资源,对于复杂SQL查询(复杂聚合、复杂join计算)能够支持50~100并发,对于简单的SQL查询,支持100~200左右查询。
过阈值 ALM-14016 DataNode直接内存使用率超过阈值 ALM-14017 NameNode直接内存使用率超过阈值 ALM-14018 NameNode非堆内存使用率超过阈值 ALM-14019 DataNode非堆内存使用率超过阈值 ALM-14020 HDFS目录条目数量超过阈值
oordinator进程运行的性能,甚至造成Coordinator进程不可用。 可能原因 该节点Coordinator进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 登录MRS集群详情页面,选择“告警管理”。 选中“告警ID”为“4400
单击“添加角色”,然后“角色名称”和“描述”输入角色名字与描述。 设置角色“配置资源权限”请参见表1。 Yarn权限: “集群管理操作权限”:Yarn管理员权限。 “调度队列”:队列资源管理。 表1 设置角色 任务场景 角色授权操作 设置Yarn管理员权限 在“配置资源权限”的表格中选择“待操作集群的名称
调试Flink内存和GC相关问题时可开启,TaskManager会定时采集内存和GC的统计信息,包括当前堆内,堆外,内存池的使用率和GC时间。 false 否 taskmanager.debug.memory.logIntervalMs TaskManager定时采集内存和GC的统计信息的采集间隔。
较大,压缩效率较低。 内存调优 CarbonData为内存调优提供了一个机制,其中数据加载会依赖于查询中需要的列。不论何时,接收到一个查询命令,将会获取到该查询中的列,并确保内存中这些列有数据加载。在该操作期间,如果达到内存的阈值,为了给查询需要的列提供内存空间,最少使用加载级别的文件将会被删除。
配置RegionServer的JVM最大内存。 HADOOP_HEAPSIZE 配置DataNode的JVM最大内存。 yarn.nodemanager.resource.memory-mb 配置当前节点上NodeManager可使用的内存大小。 dfs.datanode.max
较大,压缩效率较低。 内存调优 CarbonData为内存调优提供了一个机制,其中数据加载会依赖于查询中需要的列。不论何时,接收到一个查询命令,将会获取到该查询中的列,并确保内存中这些列有数据加载。在该操作期间,如果达到内存的阈值,为了给查询需要的列提供内存空间,最少使用加载级别的文件将会被删除。
作业SQL开发完成后,请参考表1设置基础参数,还可根据需要设置自定义参数,然后单击“保存”。 表1 基础参数 参数名称 参数描述 并行度 并行数量。 算子最大并行度 算子最大的并行度。 JobManager内存(MB) JobManager的内存。输入值最小为4096。 提交队列
检查RegionServer堆内存配置。 在FusionInsight Manager的告警列表中,查看1中的告警实例是否有“HBase服务进程堆内存使用率超过阈值”告警产生。 是,执行3。 否,执行5。 参考“ALM-19008 HBase服务进程堆内存使用率超过阈值”的处理步骤处理该故障。
当CompactedLogScanner合并所有日志文件时,此配置有助于选择是否应延迟读取日志块。选择true以使用I/O密集型延迟块读取(低内存使用),或者为false来使用内存密集型立即块读取(高内存使用)。 true hoodie.compaction.reverse.log.read HoodieLogF
运行程序参数 参数 参数说明 取值样例 -ytm 设置每个TaskManager容器的内存(单位可选, 默认单位:MB)。 1024 -yjm 设置JobManager容器内存(单位可选,默认单位:MB)。 1024 -yn 设置分配给应用程序的Yarn容器的数量,该值与TaskManager数量相同。
Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 NodeManager进程的垃圾回收时间过长,可能影响该NodeManager进程正常提供服务。 可能原因 该NodeManager节点实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。
描述 默认值 GC_OPTS HBase利用内存完成读写操作。提高HBase内存可以有效提高HBase性能。 GC_OPTS主要需要调整HeapSize的大小和NewSize的大小。调整HeapSize大小的时候,建议将Xms和Xmx设置成相同的值,这样可以避免JVM动态调整Hea
Manager界面,选择“运维 > 告警 > 告警”,在告警列表中查看是否上报“Hive服务进程堆内存使用超出阈值”告警。 是,执行2。 否,执行4。 参考“ALM-16005 Hive服务进程堆内存使用超出阈值”的处理步骤处理该故障。 在告警列表中,查看该告警是否清除。 是,处理完毕。 否,执行4。
Condition 系统当前指标取值满足自定义的告警设置条件 对系统的影响 Worker4进程GC时间过长,会影响Worker4进程运行的性能,甚至造成Worker4进程不可用。 可能原因 该节点Worker4进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。
断是否严重超出规格限制。 通过观测ZooKeeper的日志以及HBase的日志,查看是否有大量的IO Exception Timeout或者SocketTimeout Exception异常。 调优建议: 将ZooKeeper实例个数调整为5个及以上,可以通过设置peerType