数据治理中心 DATAARTS STUDIO-源端为Apache Kafka,目的端为MRS Kafka:分库分表场景
分库分表场景
- 源端配置。
- Kafka配置。
- 数据格式:支持的数据格式。
目前支持JSON、 CS V、TEXT格式。
- 消费组ID:由用户指定,标识当前实时处理集成作业的消费组。
当迁移作业消费DMS Kafka集群某一Topic的消息后,在Kafka集群的“消费组管理”可以看到此处配置的消费组ID、在“消息查询”可以查到消费属性group.id。因为Kafka把消费消息的一方称为消费者(Consumer),多个消费者组成一个消费组(Consumer Group),消费组是Kafka提供的可扩展且具有容错性的消费者机制,建议配置消费组。
- Kafka源端属性配置:支持设置Kafka的配置项,需要增加 properties. 前缀,作业将自动移除前缀并传入底层Kafka客户端,例如:properties.connections.max.idle.ms=600000。
- 数据格式:支持的数据格式。
- 添加数据源。
图1 添加数据源
- Kafka配置。
- 目标端配置。
图2 配置目标端参数
- 设置源表与Topic映射规则:
- 目标Topic名称规则:源端表名与目的端Topic名的映射规则,可以指定为单一Topic,也可使用内置字段做映射。
- 同步kafka partition策略:选择kafka partition策略。
- 按源端分区投递到对应的Partition:源端消息在第n个分区,则投递到目的端的第n个分区,该策略可以保证消息顺序。
- 按轮询模式投递到不同的Partition:采用Kafka粘性分区策略均匀的投递到目的端主题的所有分区,该策略无法保证消息顺序。
- 全部投递到Partition 0。
- 新建Topic的Partition数量:设置新建Topic的Partition数量,默认为3。
- Kafka目标端属性配置:支持设置Kafka的配置项,需要增加 properties. 前缀,作业将自动移除前缀并传入底层Kafka客户端,例如:properties.connections.max.idle.ms=600000作业提交后目标端会额外添加一个内置参数dataFormat。
- 源表与目标表映射:支持用户根据实际需求修改映射后的目的端topic名称,可以配置为一对一、多对一的映射关系。
图3 配置源表与目标表映射
- 设置源表与Topic映射规则:
- 数据治理中心_数据开发_数据开发能力_脚本和节点介绍-华为云
- kafka是什么_kafka介绍_分布式消息服务Kafka版
- MapReduce工作原理_MapReduce是什么意思_MapReduce流程_MRS_华为云
- 大数据分析是什么_使用MapReduce_创建MRS服务
- Kafka架构_Kafka如何实现负载均衡_Kafka数据存储方式-华为云
- MapReduce服务_什么是Kafka_如何使用Kafka
- MRS优势_什么是MRS_MRS功能
- 数据治理中心_数据质量评估_质量规则和质量报告-华为云
- 分布式消息服务Kafka版与分布式消息服务RocketMQ版的区别_Kafka与RocketMQ对比_Kafka与RocketMQ差异
- 数据治理中心_数据开发_最佳实践_-华为云