MAPREDUCE服务 MRS-创建Bucket索引表调优:确认表内桶数

时间:2024-09-06 10:03:29

确认表内桶数

Hudi表的桶数设置,关系到表的性能,需要格外引起注意。

以下几点,是设置桶数的关键信息,需要建表前确认。

  • 非分区表
    1. 单表数据总条数 = select count(1) from tablename(入湖时需提供);
    2. 单条数据大小 = 平均 1KB(华为建议通过select * from tablename limit 100将查询结果粘贴在notepad++中得出100条数据的大小再除以100得到单条平均大小)
    3. 单表数据量大小(G) = 单表数据总条数*单表数据大小/1024/1024
    4. 非分区表桶数 = MAX(单表数据量大小(G)/2G*2,再向上取整,4)
  • 分区表
    1. 最近一个月最大数据量分区数据总条数 = 入湖前咨询产品线
    2. 单条数据大小 = 平均 1KB(华为建议通过select * from tablename limit 100将查询结果粘贴在notepad++中得出100条数据的大小再除以100得到单条平均大小)
    3. 单分区数据量大小(G) = 最近一个月最大数据量分区数据总条数*单表数据大小/1024/1024
    4. 分区表桶数 = MAX(单分区数据量大小(G)/2G,再后向上取整,1)
    1. 需要使用的是表的总数据大小,而不是压缩以后的文件大小
    2. 桶的设置以偶数最佳,非分区表最小桶数请设置4个,分区表最小桶数请设置1个。
support.huaweicloud.com/devg-rule-mrs/mrs_07_450138_0.html