华为云首页用户手册

数据治理中心 DATAARTS STUDIO-源端为Oracle，目的端为DWS:整库场景

时间：2024-11-28 01:49:12

数据治理中心 DATAARTS STUDIO 配置源端和目标端参数

整库场景

源端配置。
1. 添加数据源，选择需要迁移的Oracle表。
  图1 选择库表
  
  库与表均支持自定义选择，即可选择一库一表，也可选择多库多表。

目标端配置。

图2 配置目标端参数
点击放大

源库表和目标匹配策略：
- Schema匹配策略：配置目标数据Schema的匹配策略，使数据按照规划迁移至目标库。
  用户需要提前创建对应数据库，否则可能导致后续自动建表失败。
  - 与来源库同名：会迁移至目的端对应与来源库同名的数据库中。
  - 自定义：支持用户指定目的端库名，也支持通过#{source_db_name}给源数据库名添加自定义字段变成目的端DWS表的库名。
    如果包含内置参数#{source_db_name}，则会迁移至DWS目的端对应Schema中，如果不包含该内置参数，则会迁移至与源端数据库同名的Schema中。
- 表匹配策略：配置目标数据表的匹配策略，使数据按照规划迁移至目标表。同步对象为库级同步时，无此配置项。
  用户不需要提前创建对应数据表，后续作业时自动建表。
  - 与来源表同名：会迁移至目的端对应与来源表同名的表中。
  - 自定义：支持用户指定目的端表名，也支持通过内置参数#{source_table_name}给源表名添加前后缀，变成目的端Hudi表的表名。
- 写入模式：选择数据写入模式。
  UPSERT MODE为批量更新入库模式，COPY MODE为DWS专有的高性能批量入库模式。
- 批写最大数据量：根据表数据大小和作业内存使用，适当调整，数据范围1-10000000。
- 定时批写时间间隔：数据定时入库的间隔时间，时间1-1000，单位为秒。
- 高级配置：通过设置以下参数配置数据写入的高级属性。
  - sink.buffer-flush.max-size：根据作业配置内存和数据大小设置批写最大内存，单位:Mb。
  - sink.case-sensitive：是否对字段大小写字母敏感，可选：true/false，当写入模式为COPY MODE，主键名称含大写字母时，需要设置为true。