MAPREDUCE服务 MRS-在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象:回答

时间:2024-10-16 17:58:33

回答

当前在默认配置下,在内存中保留的Job和Stage的UI数据个数为1000个。

当前大集群优化已增加将UI数据溢出到磁盘的优化,其溢出条件是每个Stage中的UI数据大小达到最小阈值5MB。如果每个Stage的task数较小,那么其UI数据大小可能达不到该阈值,从而导致该Stage的UI数据一直缓存在内存中,直到UI数据个数到达保留的上限值(当前默认值为1000个),旧的UI数据才会在内存中被清除。

因此,在将旧的UI数据从内存中清除之前,UI数据会占用大量内存,从而导致执行10T的TPCDS测试套时出现Driver内存不足的现象。

规避措施:

  • 根据业务需要,配置合适的需要保留的Job和Stage的UI数据个数,即配置“spark.ui.retainedJobs”“spark.ui.retainedStages”参数。详细信息请参考常用参数中的表13
  • 如果需要保留的Job和Stage的UI数据个数较多,可通过配置“spark.driver.memory”参数,适当增大Driver的内存。详细信息请参考常用参数中的表10
support.huaweicloud.com/cmpntguide-lts-mrs/mrs_01_2043.html