数据管理维护-华为云

MAPREDUCE服务 MRS-Hudi Compaction操作说明

Hudi Compaction操作说明 Compaction用于合并mor表Base和Log文件。对于Merge-On-Read表，数据使用列式Parquet文件和行式Avro文件存储，更新被记录到增量文件，然后进行同步/异步compaction生成新版本的列式文件。Merge-On-Read表可减少数据摄入延迟，因而进行不阻塞摄入的异步Compaction很有意义。异步Compaction会进行如下两个步骤：调度Compaction：由入湖作业完成，在这一步，Hudi扫描分区并选出待进行compaction的FileSlice，最后CompactionPlan会写入Hudi的Timeline。执行Compaction：一个单独的进程/线程将读取CompactionPlan并对FileSlice执行Compaction操作。使用Compaction的方式分为同步和异步两种：同步方式由参数hoodie.compact.inline控制，默认为true，自动生成compaction调度计划并执行compaction：关闭同步compaction datasource写入时可以通过 .option("hoodie.compact.inline", "false") 来关闭自动compaction。 spark-sql写入时可以通过set hoodie.compact.inline=false;来关闭自动compaction。仅同步生成compaction调度而不执行compaction ·datasource写入时可以通过以下option参数来实现： option("hoodie.compact.inline", "true"). option("hoodie.schedule.compact.only.inline", "true"). option("hoodie.run.compact.only.inline", "false"). ·spark-sql写入时可以通过set以下参数来实现： set hoodie.compact.inline=true; set hoodie.schedule.compact.only.inline=true; set hoodie.run.compact.only.inline=false; 异步方式由spark-sql来实现。如果需要在异步compaction时只执行已经产生的compaction调度计划而不创建新的调度计划，则需要通过set命令设置以下参数： set hoodie.compact.inline=true; set hoodie.schedule.compact.only.inline=false; set hoodie.run.compact.only.inline=true; 更多compaction参数请参考compaction&cleaning配置章节。为了保证入湖的最高效率，推荐使用同步产生compaction调度计划，异步执行compaction调度计划的方式。父主题：数据管理维护

MAPREDUCE服务 MRS 数据管理维护

MAPREDUCE服务 MRS-Hudi Clustering操作说明:Clustering架构

Clustering架构 Hudi通过其写入客户端API提供了不同的操作，如insert/upsert/bulk_insert来将数据写入Hudi表。为了能够在文件大小和入湖速度之间进行权衡，Hudi提供了一个hoodie.parquet.small.file.limit配置来设置最小文件大小。用户可以将该配置设置为“0”，以强制新数据写入新的文件组，或设置为更高的值以确保新数据被“填充”到现有小的文件组中，直到达到指定大小为止，但其会增加摄取延迟。为能够支持快速摄取的同时不影响查询性能，引入了Clustering服务来重写数据以优化Hudi 数据湖文件的布局。 Clustering服务可以异步或同步运行，Clustering会添加了一种新的REPLACE操作类型，该操作类型将在Hudi元数据时间轴中标记Clustering操作。 Clustering服务基于Hudi的MVCC设计，允许继续插入新数据，而Clustering操作在后台运行以重新格式化数据布局，从而确保并发读写者之间的快照隔离。总体而言Clustering分为两个部分：调度Clustering：使用可插拔的Clustering策略创建Clustering计划。识别符合Clustering条件的文件：根据所选的Clustering策略，调度逻辑将识别符合Clustering条件的文件。根据特定条件对符合Clustering条件的文件进行分组。每个组的数据大小应为targetFileSize的倍数。分组是计划中定义的"策略"的一部分。此外还有一个选项可以限制组大小，以改善并行性并避免混排大量数据。将Clustering计划以avro元数据格式保存到时间线。执行Clustering：使用执行策略处理计划以创建新文件并替换旧文件。读取Clustering计划，并获得ClusteringGroups，其标记了需要进行Clustering的文件组。对于每个组使用strategyParams实例化适当的策略类（例如：sortColumns），然后应用该策略重写数据。创建一个REPLACE提交，并更新HoodieReplaceCommitMetadata中的元数据。

MAPREDUCE服务 MRS 数据管理维护

MAPREDUCE服务 MRS-Hudi Cleaning操作说明

Hudi Cleaning操作说明 Cleaning用于清理不再需要的版本数据。 Hudi使用Cleaner后台作业，不断清除不需要的旧得版本的数据。通过配置hoodie.cleaner.policy和hoodie.cleaner.commits.retained可以使用不同的清理策略和保存的commit数量。执行cleaning有两种方式：同步clean由参数hoodie.clean.automatic控制，默认自动开启。关闭同步clean： datasource写入时可以通过.option("hoodie.clean.automatic", "false")来关闭自动clean。 spark-sql写入时可以通过set hoodie.clean.automatic=false;来关闭自动clean。异步clean可以使用spark-sql来执行。更多clean相关参数请参考compaction&cleaning配置章节。父主题：数据管理维护

MAPREDUCE服务 MRS 数据管理维护

MAPREDUCE服务 MRS-配置Hudi分区并发控制:使用分区并发机制

使用分区并发机制通过设置参数：hoodie.support.partition.lock=true来启动分区并发写。示例： spark datasource方式开启分区并发写： upsert_data.write.format("hudi"). option("hoodie.datasource.write.table.type", "COPY_ON_WRITE"). option("hoodie.datasource.write.precombine.field", "col2"). option("hoodie.datasource.write.recordkey.field", "primary_key"). option("hoodie.datasource.write.partitionpath.field", "col0"). option("hoodie.upsert.shuffle.parallelism", 4). option("hoodie.datasource.write.hive_style_partitioning", "true"). option("hoodie.support.partition.lock", "true"). option("hoodie.table.name", "tb_test_cow"). mode("Append").save(s"/tmp/huditest/tb_test_cow") spark-sql开启分区并发写： set hoodie.support.partition.lock=true; insert into hudi_table1 select 1,1,1;

MAPREDUCE服务 MRS 数据管理维护

MAPREDUCE服务 MRS-配置Hudi分区并发控制:注意事项

注意事项分区并发写控制基于单表并发写控制的基础上实现，因此使用约束条件与单表并控制写基本相同。当前分区并发只支持Spark方式写入，Flink不支持该特性。为避免过大并发量占用ZooKeeper过多资源，对Hudi在ZooKeeper上增加了Quota配额限制，可以通过服务端修改Spark组件中参数zk.quota.number来调整Hudi的Quota配额，默认为500000，最小为5，且不可通过此参数来控制并行任务数，仅用来控制对ZooKeeper的访问压力。

MAPREDUCE服务 MRS 数据管理维护

云服务器内容精选

数据管理维护

7*24

备案

专业服务

退订

建议反馈

售前咨询热线