MAPREDUCE服务 MRS-数据表Compaction规范:规则
规则
- 有数据持续写入的表,24小时内至少执行一次compaction。
对于MOR表,不管是流式写入还是批量写入,需要保证每天至少完成1次Compaction操作。如果长时间不做compaction,Hudi表的log将会越来越大,这必将会出现以下问题:
- Hudi表读取很慢,且需要很大的资源。 这是由于读MOR表涉及到log合并,大log合并需要消耗大量的资源并且速度很慢。
- 长时间进行一次Compaction需要耗费很多资源才能完成,且容易出现OOM。
- 阻塞Clean,如果没有Compaction操作来产生新版本的Parquet文件,那旧版本的文件就不能被Clean清理,增加存储压力。
- CPU与内存比例为1:4~1:8。
Compaction作业是将存量的parquet文件内的数据与新增的log中的数据进行合并,需要消耗较高的内存资源,按照之前的表设计规范以及实际流量的波动结合考虑,建议Compaction作业CPU与内存的比例按照1:4~1:8配置,保证Compaction作业稳定运行。当Compaction出现OOM问题,可以通过调大内存占比解决。
【建议】通过增加并发数提升Compaction性能。
- MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用
- GaussDB时序_时序引擎_高斯数据库时序-华为云
- MapReduce服务_什么是MapReduce服务_什么是HBase
- GaussDB查询数据表_GaussDB查看数据库连接数_高斯数据库查询数据表-华为云
- 大数据分析是什么_使用MapReduce_创建MRS服务
- MapReduce服务_什么是Hue_如何使用Hue
- ModelArts推理部署_OBS导入_模型包规范-华为云
- MapReduce服务_什么是HetuEngine_如何使用HetuEngine
- MapReduce服务_什么是Kafka_如何使用Kafka
- MapReduce服务_什么是HDFS_HDFS特性