云服务器内容精选

华为云首页用户手册

配置源端和目标端参数

数据治理中心 DATAARTS STUDIO-源端为Oracle，目的端为DWS:整库场景

整库场景源端配置。添加数据源，选择需要迁移的Oracle表。图1 选择库表库与表均支持自定义选择，即可选择一库一表，也可选择多库多表。目标端配置。图2 配置目标端参数源库表和目标匹配策略： Schema匹配策略：配置目标数据Schema的匹配策略，使数据按照规划迁移至目标库。用户需要提前创建对应数据库，否则可能导致后续自动建表失败。与来源库同名：会迁移至目的端对应与来源库同名的数据库中。自定义：支持用户指定目的端库名，也支持通过#{source_db_name}给源数据库名添加自定义字段变成目的端DWS表的库名。如果包含内置参数#{source_db_name}，则会迁移至DWS目的端对应Schema中，如果不包含该内置参数，则会迁移至与源端数据库同名的Schema中。表匹配策略：配置目标数据表的匹配策略，使数据按照规划迁移至目标表。同步对象为库级同步时，无此配置项。用户不需要提前创建对应数据表，后续作业时自动建表。与来源表同名：会迁移至目的端对应与来源表同名的表中。自定义：支持用户指定目的端表名，也支持通过内置参数#{source_table_name}给源表名添加前后缀，变成目的端Hudi表的表名。写入模式：选择数据写入模式。 UPSERT MODE为批量更新入库模式，COPY MODE为DWS专有的高性能批量入库模式。批写最大数据量：根据表数据大小和作业内存使用，适当调整，数据范围1-10000000。定时批写时间间隔：数据定时入库的间隔时间，时间1-1000，单位为秒。高级配置：通过设置以下参数配置数据写入的高级属性。 sink.buffer-flush.max-size：根据作业配置内存和数据大小设置批写最大内存，单位:Mb。 sink.case-sensitive：是否对字段大小写字母敏感，可选：true/false，当写入模式为COPY MODE，主键名称含大写字母时，需要设置为true。源表与目标表映射：同步对象为库级同步时，无此配置项。图3 配置源表与目标表映射附加字段编辑：单击操作列“附加字段编辑”可为迁移后的DWS表中增加自定义字段，附加字段会成为一个新的字段加入到DWS表的建表中。表1 附加字段值支持情况类型示例常量 - 对于新建的表，用户可以在已有的源表字段基础上添加附加字段，可以自定义字段名（如custom_defined_col）、选择字段类型、填写字段值。用户可同时添加多个附加字段。自动建表：单击“自动建表”为列表中的表按照已配置规则自动建表。成功后表建立方式会显示为使用已有表。

数据治理中心 DATAARTS STUDIO 配置源端和目标端参数
数据治理中心 DATAARTS STUDIO-源端为MySQL，目的端为DMS Kafka:整库场景

整库场景源端配置。添加数据源，选择需要迁移的MySQL表。图1 选择库表库与表均支持自定义选择，即可选择一库一表，也可选择多库多表。目标端配置。图2 配置目标端参数设置源表与Topic映射规则：目标Topic名称规则：源端表名与目的端Topic名的映射规则，可以指定为单一Topic，也可使用内置字段做映射。可以使用的内置变量有： #{source_db_name}：源库名。 #{source_table_name}：源库名。同步kafka partition策略：支持以下三种投递策略，源端无主键情况下，目的端默认投递到partition 0。按库名+表名的hash值投递到不同Partition。全部投递到Partition 0。按表的主键值hash值投递到不同的Partition。需要同步的数据库操作：支持同步的数据库操作为DDL和DML。投递到Kafka的数据格式：投递到Kafka的数据格式有Debezium JSON和Canal JSON。源表与目标表映射：支持用户根据实际需求修改映射后的目的端topic名称，可以配置为一对一、多对一的映射关系。图3 配置源表与目标表映射

数据治理中心 DATAARTS STUDIO 配置源端和目标端参数
数据治理中心 DATAARTS STUDIO-源端为MySQL，目的端为DMS Kafka:分库分表场景

分库分表场景源端配置。图4 添加逻辑表逻辑表名：即最终写入到DMS Kafka的表名。源库过滤条件：支持填入正则表达式，在所有Mysql实例中通过该正则表达式过滤出要写入目标端DWS汇聚表的所有分库源表过滤条件：支持填入正则表达式，在过滤出的源端分库中再次过滤出要写入目标端DWS汇聚表的所有分表已添加的逻辑表支持预览，单击操作列的预览即可。预览逻辑表，源表数量越多，等待时间可能越长，请耐心等待。图5 逻辑表预览目标端配置。图6 配置目标端参数设置源表与Topic映射规则：目标Topic名称规则：源端表名与目的端Topic名的映射规则，可以指定为单一Topic，也可使用内置字段做映射。可以使用的内置变量有： #{source_db_name}：源库名。 #{source_table_name}：源库名。同步kafka partition策略：支持以下三种投递策略，源端无主键情况下，目的端默认投递到partition 0。按库名+表名的hash值投递到不同Partition。全部投递到Partition 0。按表的主键值hash值投递到不同的Partition。需要同步的数据库操作：支持同步的数据库操作为DDL和DML。投递到Kafka的数据格式：投递到Kafka的数据格式有Debezium JSON和Canal JSON。源表与目标表映射：支持用户根据实际需求修改映射后的目的端topic名称，可以配置为一对一、多对一的映射关系。图7 配置源表与目标表映射

数据治理中心 DATAARTS STUDIO 配置源端和目标端参数