云服务器内容精选

华为云首页用户手册

使用教程

数据治理中心 DATAARTS STUDIO-SQLServer同步到MRS Hudi:操作步骤

操作步骤本小节以Microsoft SQL Server到 MRS Hudi的实时同步为示例，介绍如何配置Migration实时集成作业。配置作业前请务必阅读使用前自检概览，确认已做好所有准备工作。参见新建实时集成作业创建一个实时集成作业并进入作业配置界面。选择数据连接类型：源端选SQLServer，目的端选Hudi。图3 选择数据连接类型选择集成作业类型：同步类型默认为实时，同步场景包含整库场景。图4 选择集成作业类型同步场景相关介绍请参见同步场景。配置网络资源：选择已创建的SQLServer、MRS Hudi数据连接和已配置好网络连接的资源组。图5 选择数据连接及资源组检测网络连通性：数据连接和资源组配置完成后需要测试整个迁移任务的网络连通性，可通过以下方式进行数据源和资源组之间的连通性测试。单击展开“源端配置”触发连通性测试，会对整个迁移任务的连通性做校验。单击源端和目的端数据源和资源组中的“测试”按钮进行检测。网络连通性检测异常可先参考数据源和资源组网络不通如何排查？章节进行排查。配置源端参数。选择需要迁移的SQLServer库表。图6 选择库表库与表均支持自定义选择，即可选择一库一表，也可选择多库多表。配置目的端参数。源库表和目标匹配策略。各同步场景下源端库表和目标端库表的匹配策略请参考下表。表5 源库表和目标匹配策略同步场景配置方式整库库匹配策略。与来源库同名：数据将同步至与来源SQLServer Schema名相同的Hudi库中。自定义：数据将同步至自行指定的Hudi库中。表匹配策略。与来源表同名：数据将同步至与来源SQLServer Schema名相同的Hudi表中。自定义：数据将同步至自行指定的Hudi表中。图7 整库场景下源库表和目标匹配策略说明：自定义匹配策略时，支持用内置变量#{source_db_name}和#{source_table_name}标志来源SQLServer Schema名名和表名，其中表匹配策略必须包含#{source_table_name}。 Hudi参数配置。其余Hudi目的端参数说明请参考下表。图8 Hudi目的端配置项表6 Hudi目的端配置项配置项默认值单位配置说明数据存储路径 - - Hudi自动建表时的warehouse路径，每张表会在warehouse路径下创建子目录。支持填写HDFS和OBS路径，路径格式参考： OBS路径：obs://bucket/warehouse HDFS路径：/tmp/warehouse Hudi表属性全局配置 - - 支持通过参数配置部分高级功能，参数详情可参考Hudi高级配置一览表。表7 Hudi高级配置一览表参数名参数类型默认值单位参数说明 index.type string BLOOM - Hudi表索引类型。支持BLOOM和BUCKET索引，数据量较大场景下强烈建议使用BUCKET索引性能更好。 hoodie.bucket.index.num.buckets int 256 个 Hudi表单分区下Bucket桶数。说明：使用Hudi BUCKET表时需要设置Bucket桶数，桶数设置关系到表的性能，需要格外引起注意。非分区表桶数 = MAX(单表数据量大小(G)/2G*2，再向上取整，4) 分区表桶数 = MAX(单分区数据量大小(G)/2G*2，再后向上取整，1) 其中，要注意的是：需要使用的是表的总数据大小，而不是压缩以后的文件大小。桶的设置以偶数最佳，非分区表最小桶数请设置4个，分区表最小桶数请设置1个。 changelog.enabled boolean false - Hudi changelog功能开关，开启后Migration作业可输出DELETE和UPDATE BEFORE数据。 logical.delete.enabled boolean true - 逻辑删除开关，changelog开启时必须关闭逻辑删除。 hoodie.write.liststatus.optimized boolean true - 写log文件时是否开启liststatus优化。涉及到大表和分区数据量多的作业，在启动时list会非常耗时，可能导致作业启动超时，建议关闭。 hoodie.index.liststatus.optimized boolean false - 定位数据时是否开启liststatus优化。涉及到大表和分区数据量多的作业，在启动时list会非常耗时，可能导致作业启动超时，建议关闭。 compaction.async.enabled boolean true - 异步compaction开关。compaction操作一定程度会影响实时任务的写入性能，如果用户使用外置的compaction操作对hudi进行compaction，可以考虑设置为false关闭实时处理集成作业的compaction操作。 compaction.schedule.enabled boolean true - 生成compaction计划的开关。compaction计划必须由本服务生成，计划的执行可以交给Spark。 compaction.delta_commits int 40 次生成compaction request的频率。compaction request生成频率降低可以使得compaction频率降低从而提升作业性能。如果hudi增量数据较小。可以考虑增大该值。说明：例如配置为40，即每40次commit生成一个compaction request，因为Migration每分钟生成1个commit，那么每个compaction request将间隔40分钟。 clean.async.enabled boolean true - 做历史版本数据文件清理的开关。 clean.retain_commits int 30 次要保留的commit数。这些commit关联的数据文件版本将被保留 num_of_commits * time_between_commits 这么长的时间，建议配置为2倍的compaction.delta_commits。说明：例如配置为80，因为Migration每分钟生成1个commit，那么超过80分钟后如果有旧版本数据文件，则会生成clean request，且在执行clean时保留最近80个commit。 hoodie.archive.automatic boolean true - Hudi commit文件老化开关。 archive.min_commits int 40 次将旧版commit归档到日志文件中时要保留不归档的最小commit数。建议配置成clean.retain_commits + 1。说明：例如配置成81，那么在触发归档动作时，将会保留最近81次commit文件。 archive.max_commits int 50 次触发归档动作的commit数。建议配置成archive.min_commits + 20。说明：例如配置成101，那么将在生成101个commit文件后触发归档commit文件动作。为了达到Migration作业性能最优，建议使用Hudi Bucket索引的MOR表，并根据实际数据量配置Bucket桶数。为了保证Migration作业的稳定性，建议将Hudi Compaction单独拆成Spark作业交由MRS执行，在Migration任务里仅开启生成compaction计划，具体可以参考如何配置Hudi Compaction的Spark周期任务？。刷新源表和目标表映射，检查映射关系是否正确，同时可根据需求修改表属性、添加附加字段，并通过“自动建表”能力在目的端Hudi数据库中建出相应的表。图9 源表与目标表映射同步主键 Hudi表必须设置“同步主键”，在源端为非主键表时，必须在字段映射阶段手动勾选主键。表属性编辑单击操作列“表属性编辑”可配置Hudi表属性，包含表类型，分区类型及表自定义属性。图10 Hudi单表表属性配置表类型：Hudi的表类型，可选MERGE_ON_READ和COPY_ON_WRITE。分区类型：Hudi表分区类型，可选无分区、时间分区、自定义分区。其中时间分区需要用户指定一个源端表名，选择一个时间转换格式。比如时间分区用户指定一个源端表名src_col_1，选择一个时间转换格式，日(yyyyMMdd)、月(yyyyMM)、年(yyyy)，自动建表时会在Hudi表默认创建一个cdc_partition_key的字段，系统会根据配置的时间转换格式将源端字段(src_col_1)的值格式化后写入cdc_partition_key中。表自定义属性：支持通过参数配置单表的部分高级功能，参数详情可参考Hudi高级配置一览表。附加字段编辑：单击操作列“附加字段编辑”可为迁移后的Hudi表中增加自定义字段，同时附加字段也会额外加入到Hudi表的建表中。用户可以在已有的源表字段基础上添加多个附加字段，并自定义字段名、选择字段类型、填写字段值。字段名称：目的端Hudi表新增字段的名称。字段类型：目的端Hudi表新增字段的类型。字段值：目的端Hudi表新增字段的取值来源。表8 附加字段取值方式类型示例常量任意字符内置变量源端host ip地址：source.host 源端schema名称：source.schema 源端table名称：source.table 目的端schema名称：target.schema 目的端table名称：target.table 字段变量源表中的任一字段 udf方法 substring(#col, pos[, len])：截取源端col列的子串, 范围在[pos, pos+len)。 date_format(#col, time_format[, src_tz, dst_tz])：将源端col列按time_format格式化, 可选转换时区。 now([tz])：获取指定时区的当前时间。 if(cond_exp, str1, str2)：满足条件表达式cond_exp时返回str1, 否则返回str2。 concat(#col[, #str, ...])：拼接多个参数, 可为源端列或字符串。 from_unixtime(#col[, time_format])：将unix时间戳按time_format格式化。 unix_timestamp(#col[, precision, time_format])：将时间转成unix时间戳, 可显式定义时间格式及转换后精度。自动建表：单击“自动建表”可按照已配置映射规则在目的端数据库自动建表，成功后表建立方式会显示为使用已有表。图11 自动建表 Migration仅支持自动建表，不支持自动建库和模式，需用户自行在目的端手动建出库和模式后再使用本功能建表。自动建表时对应的字段类型映射关系请参见字段映射关系章节。自动建出的Hudi表会带有3个审计字段，分别是cdc_last_update_date、logical_is_deleted、_hoodie_event_time，并会以_hoodie_event_time作为Hudi表的预聚合键。配置任务属性。表9 任务配置参数说明参数说明默认值执行内存作业执行分配内存，跟随处理器核数变化而自动变化。 8GB 处理器核数范围：2-32。每增加1处理核数，则自动增加4G执行内存和1并发数。 2 并发数作业执行支持并发数。该参数无需配置，跟随处理器核数变化而自动变化。 1 自动重试作业失败时是否开启自动重试。否最大重试次数 “自动重试”为是时显示该参数。 1 重试间隔时间 “自动重试”为是时显示该参数。 120秒是否写入脏数据选择是否记录脏数据，默认不记录脏数据，当脏数据过多时，会影响同步任务的整体同步速度。链路是否支持写入脏数据，以实际界面为准。否：默认为否，不记录脏数据。表示不允许脏数据存在。如果同步过程中产生脏数据，任务将失败退出。是：允许脏数据，即任务产生脏数据时不影响任务执行。允许脏数据并设置其阈值时：若产生的脏数据在阈值范围内，同步任务将忽略脏数据（即不会写入目标端），并正常执行。若产生的脏数据超出阈值范围，同步任务将失败退出。说明：脏数据认定标准：脏数据是对业务没有意义，格式非法或者同步过程中出现问题的数据；单条数据写入目标数据源过程中发生了异常，则此条数据为脏数据。因此只要是写入失败的数据均被归类于脏数据。例如，源端是VARCHAR类型的数据写到INT类型的目标列中，则会因为转换不合理导致脏数据不会成功写入目的端。用户可以在同步任务配置时，配置同步过程中是否写入脏数据，配置脏数据条数（单个分片的最大错误记录数）保证任务运行，即当脏数据超过指定条数时，任务失败退出。否脏数据策略 “是否写入脏数据”为是时显示该参数，当前支持以下策略：不归档：不对脏数据进行存储，仅记录到任务日志中。归档到OBS：将脏数据存储到OBS中，并打印到任务日志中。不归档脏数据写入连接 “脏数据策略”选择归档到OBS时显示该参数。脏数据要写入的连接，目前只支持写入到OBS连接。 - 脏数据目录脏数据写入的OBS目录。 - 脏数据阈值是否写入脏数据为是时显示该参数。用户根据实际设置脏数据阈值。说明：脏数据阈值仅针对每个并发生效。比如阈值为100，并发为3，则该作业可容忍的脏数据条数最多为300。输入-1表示不限制脏数据条数 100 添加自定义属性支持通过自定义属性修改部分作业参数及开启部分高级功能，详情可参见任务性能调优章节。 - 提交并运行任务。作业配置完毕后，单击作业开发页面左上角“提交”，完成作业提交。图12 提交作业提交成功后，单击作业开发页面左上角“启动”按钮，在弹出的启动配置对话框按照实际情况配置同步位点参数，单击“确定”启动作业。图13 启动配置表10 启动配置参数参数说明同步模式增量同步：从指定时间位点开始同步增量数据。全量+增量：先同步全量数据，随后实时同步增量数据。时间增量同步需要设置该参数，指示增量同步起始的时间位点。说明：配置的位点时间早于CDC日志最早时间点时，默认会以日志最新时间点开始消费。监控作业。通过单击作业开发页面导航栏的“前往监控”按钮，可前往作业监控页面查看运行情况、监控日志等信息，并配置对应的告警规则，详情请参见实时集成任务运维。图14 前往监控

数据治理中心 DATAARTS STUDIO 使用教程
数据治理中心 DATAARTS STUDIO-SQLServer同步到MRS Hudi:支持的同步对象范围

支持的同步对象范围在使用Migration进行同步时，不同类型的链路，支持的同步对象范围不同，详细情况可参考下表。表3 同步对象范围类型名称使用须知同步对象范围支持同步DML：包括INSERT、UPDATE、DELETE。不支持同步DDL。仅支持同步主键表。不支持同步源数据库中开启TDE（Transparent Data Encryption）加密的数据库。不支持列加密。不支持同步自增属性列。自动建表支持同步表结构、普通索引、约束（主键、空、非空）、注释。

数据治理中心 DATAARTS STUDIO 使用教程
数据治理中心 DATAARTS STUDIO-SQLServer同步到MRS Hudi:数据库账号权限要求

数据库账号权限要求在使用Migration进行同步时，源端和目的端所使用的数据库账号需要满足以下权限要求，才能启动实时同步任务。不同类型的同步任务，需要的账号权限也不同，详细可参考下表进行赋权。表2 数据库账号权限类型名称权限要求源数据库连接账号需要具备sysadmin权限，或者view server state权限以及待同步数据库的db_datareader或db_owner权限。启动数据库及表的CDC能力。启用数据库CDC。 USE YourDatabaseName; EXEC sys.sp_cdc_enable_db; GO -- 查看数据库是否启动CDC SELECT is_cdc_enabled, name FROM sys.databases WHERE name = 'YourDatabaseName' 启用表CDC。 EXEC sys.sp_cdc_enable_table @source_schema = N'dbo', -- Schema @source_name = N'YourTable',-- 表名 @role_name = NULL,-- 可选，CDC访问角色名称 @supports_net_changes = 0; GO -- 查看表是否启动CDC SELECT name,is_tracked_by_cdc FROM sys.tables WHERE name = 'YourTable'; 源端SQLServer需要给管理中心数据连接中配置的用户赋予以下全部权限。给用户添加数据库CONNECT, VIEW DATABASE STATE 权限。 USE YourDatabaseName; GRANT CONNECT, VIEW DATABASE STATE TO [YourUserName]; 给用户添加CDC schema的SELECT 权限。 USE YourDatabaseName; GRANT SELECT ON SCHEMA::[cdc] TO [YourUserName]; 给用户添加表的SELECT权限。 USE YourDatabaseName; GRANT SELECT ON OBJECT::[YourSchema].[YourTable] TO [YourUserName]; 目标数据库连接账号 MRS用户需要拥有Hadoop和Hive组件的读写权限，建议参照图1所示角色及用户组配置MRS用户。图1 MRS Hudi最小化权限具体MRS集群角色权限管理请参考《MRS集群用户权限模型》。

数据治理中心 DATAARTS STUDIO 使用教程
数据治理中心 DATAARTS STUDIO-SQLServer同步到MRS Hudi:注意事项

注意事项除了数据源版本、连接账号权限及同步对象范围外，您还需要注意的事项请参见下表。表4 注意事项类型名称使用和操作限制数据库限制目标数据库中的库名、表名、字段名仅支持数字、字母和下划线，且字段名必须以字母或下划线开头，建议尽量使用常规字符避免任务失败。源数据库如果开启客户端配置中的“强制协议加密（Force Protocol Encrypton）”，必须同时开启“信任服务器证书（trust server certificate）”，如下图所示：图2 查看客户端属性使用限制通用：实时同步过程中，不支持IP、端口、账号、密码修改。 Hudi表使用Bucket索引的场景下不允许更新分区键，否则可能产生重复数据。 Hudi表使用Bucket索引的场景下主键仅保证单分区内唯一。本链路所使用的Hudi表需带有3个审计字段：cdc_last_update_date、logical_is_deleted、_hoodie_event_time，并会以_hoodie_event_time作为Hudi表的预聚合键。因此，若使用已存在的表，也需要携带这3个审计字段，否则可能导致任务异常。 cdc_last_update_date：Migration任务处理CDC数据的时间。 logical_is_deleted：逻辑删除标志。 _hoodie_event_time：数据在SQLServer CDC中的时间戳。全量同步阶段：任务启动和全量数据同步阶段，请不要在源数据库执行DDL操作，否则可能导致任务异常。增量同步阶段：支持DML：包括INSERT、UPDATE、DELETE。不支持DDL操作，源数据库进行的DDL操作不会同步到目标数据库。不支持大数据类型IMAGE、TEXT、NTEXT的删除操作。常见故障排查：在任务创建、启动、全量同步、增量同步、结束等过程中，如有遇到问题，可先参考常见问题章节进行排查。其他限制支持目标数据库中的表比源数据库多列场景，但是需要避免以下场景可能导致的任务失败。目标数据库多的列要求非空且没有默认值，源数据库insert数据，同步到目标数据库后多的列为null，不符合目标数据库要求。不支持源数据库主备切换，源数据库主备切换会导致同步任务失败。不支持源数据库Microsoft SQL Server为TLS 1.0、TLS 1.1协议的同步，如果需要同步，建议源库升级到TLS 1.2及以上版本。

数据治理中心 DATAARTS STUDIO 使用教程
数据治理中心 DATAARTS STUDIO-数据架构示例:新建数据标准并发布

新建数据标准并发布在本示例中，您需要新建如表7所示的3个数据标准：表7 数据标准目录 *标准名称 *标准编码（自定义） *数据类型数据长度引用码表 *码表字段描述付款方式付款方式 payment_type 长整型(BIGINT) 无付款方式付款方式编码无供应商供应商 vendor 长整型(BIGINT) 无供应商供应商id 无费率费率代码 rate_code 长整型(BIGINT) 无费率代码费率id 无在数据架构控制台，单击左侧导航树中的“数据标准”，进入数据标准页面。首次进入“数据标准”页面，需要定制模板，定制的模板后续可以在配置中心进行更改。本示例需要额外勾选“引用码表”，如图所示。图16 新建数据标准目录请参考以下步骤，分别新建3个数据标准的目录：付款方式、供应商、费率。在数据标准页面的目录树上方，单击新建目录，然后在弹出框中输入目录名称“付款方式”并选择目录，单击“确定”完成目录的新建。图17 新建数据标准目录请参考以下步骤，分别新建3个数据标准：付款方式、供应商、费率。在数据标准页面的目录树中，选中所需要的目录，然后在右侧页面中单击“新建”。在新建数据标准页面中，3个数据标准可分别参考如下配置，配置完成后单击“保存”。在本示例中，数据标准模板只选取了几个参数，您可以参考配置中心的“标准模板管理”定制数据标准模板。图18 数据标准-付款方式图19 数据标准-供应商图20 数据标准-费率代码返回数据标准页面后，在列表中勾选刚才新建的3个数据标准，然后单击“发布”发布数据标准。在“批量发布”对话框中选择审核人，再单击“确认提交”，等待审核人员审核通过后，数据标准发布成功。如果当前账号具备审核人权限，也可以勾选“自助审批”，直接提交即可以审核通过。

数据治理中心 DATAARTS STUDIO 使用教程
数据治理中心 DATAARTS STUDIO-数据架构示例:指标设计：新建并发布技术指标

指标设计：新建并发布技术指标在本示例中，您需要新建如表15和表16所示的技术指标：表15 原子指标 *指标名称 *指标英文名称数据表 *所属主题 *设定表达式描述总车费 sum_total_amount 行程订单行程事实 sum (总车费) 无表16 衍生指标指标 *数据表 *所属主题 *原子指标统计维度时间限定通用限定基于付款方式维度统计总车费行程订单记录统计总车费付款方式无无基于费率代码维度统计总车费行程订单记录统计总车费费率代码无无基于供应商和下车时间维度统计总车费行程订单记录统计总车费供应商，行程订单.下车时间无无在数据架构控制台，单击左侧导航树中的“技术指标”，进入技术指标页面。新建一个原子指标“总车费”，用于统计总车费。在技术指标页面，进入“原子指标”标签页，然后单击“新建”按钮。在新建原子指标页面配置如下，配置完成后单击“发布”。图45 原子指标等待审核人审核通过。审核通过后，原子指标就创建好了。当原子指标通过审核后，新建以下3个衍生指标。总车费(付款方式)：基于付款方式维度统计总车费在技术指标页面，进入“衍生指标”标签页，然后单击“新建”按钮，在新建衍生指标页面，配置如下。配置完成后，单击“试运行”，并在弹出窗口中单击“执行”，如果运行通过单击“保存”。图46 总车费（付款方式）总车费(费率代码)：基于费率代码维度统计总车费在技术指标页面，进入“衍生指标”标签页，然后单击“新建”按钮，在新建衍生指标页面，配置如下。配置完成后，单击“试运行”，并在弹出窗口中单击“执行”，如果运行通过单击“保存”。图47 总车费(费率代码) 截止当日_总车费(供应商,行程订单.下车时间)：基于供应商维度统计总车费在技术指标页面，进入“衍生指标”标签页，然后单击“新建”按钮，在新建衍生指标页面，配置如下。配置完成后，单击“试运行”，并在弹出窗口中单击“执行”，如果运行通过单击“保存”。图48 总车费(供应商) 返回技术指标页面的“衍生指标”标签页后，勾选建好的3个衍生指标，单击“发布”，在弹出框中选择审核人，单击“确认提交”，等待审核人员审核通过后，事实表发布成功。如果当前账号具备审核人权限，也可以勾选“自助审批”，直接提交即可以审核通过。

数据治理中心 DATAARTS STUDIO 使用教程
数据治理中心 DATAARTS STUDIO-数据架构示例:主题设计

主题设计在本示例中，主题设计如表2所示，说明如下：新建1个主题域分组：城市交通。在主题域分组“城市交通”下，新建4个主题域：行程记录、集团、时空、公共维度。在主题域“行程记录”下，新建4个业务对象：原始记录、标准记录、行程事实、记录统计。在主题域“集团”下，新建1个业务对象：供应商。在主题域“时空”下，新建1个业务对象：时间。在主题域“公共维度”下，新建1个业务对象：公共维度。表2 主题设计信息主题域分组名称（L1）主题域分组编码（L1）主题域名称（L2）主题域编码（L2）业务对象名称（L3）业务对象编码（L3）城市交通 city_traffic 行程记录 stroke_reminder 原始记录 origin_stroke 标准记录 stand_stroke 行程事实 stroke_fact 记录统计 stroke_statistic 集团 people 供应商 vendor 时空 time_location 时间 date 公共维度 public_dimension 公共维度 public_dimension 图3 主题设计操作步骤如下：登录 DataArts Studio 控制台。找到已创建的DataArts Studio实例，单击实例卡片上的“进入控制台”。在工作空间概览列表中，找到所需要的工作空间，单击“数据架构”，进入数据架构控制台。在数据架构控制台，单击左侧菜单栏的“配置中心”。选择“ 主题流程配置”，使用默认的3层层级。 L1-L7表示主题层级，默认3层，最大7层，最少2层，最后一层是业务对象，其他层级名称可编辑修改。配置中心配置的层级数，将在“主题设计”模块生效。图4 配置主题层级在数据架构控制台，单击左侧菜单栏的“主题设计”，进入相应页面后，单击“新建”创建L1层主题，即主题域分组。图5 新建L1层主题在弹出窗口中，按图5所示填写参数，然后单击“确定”完成主题域分组的创建。主题域分组创建完成后，您需要勾选主题域分组，并单击“发布”，发布主题域分组。在弹出的“批量发布”对话框中选择审核人，再单击“确认提交”，等待审核人员审核通过后，主题域分组发布成功。如果当前账号具备审核人权限，也可以勾选“自助审批”，直接提交即可以审核通过。图6 发布主题域分组在L1层主题“城市交通”下，依次新建4个L2层主题，即主题域：行程记录、集团、时空、公共维度。以主题域“行程记录”为例，新建主题域的步骤如下，其他主题域也请参照以下步骤进行添加：选中已创建的L1层主题“城市交通”。单击右键，选择“新建”。或者单击右侧的“新建”按钮。图7 创建L2层主题在弹出窗口中，“名称”和“编码”请参照表2中的“主题域名称”和“主题域编码”进行填写，其他参数可根据实际情况进行填写，配置完成后单击“确定”完成主题域的新建。主题域创建完成后，您需要勾选主题域，并单击“发布”，发布主题域。在弹出的“批量发布”对话框中选择审核人，再单击“确认提交”，等待审核人员审核通过后，主题域发布成功。如果当前账号具备审核人权限，也可以勾选“自助审批”，直接提交即可以审核通过。图8 发布主题域新建业务对象。在主题域“行程记录”下，新建4个业务对象：原始记录、标准记录、行程事实、记录统计。在主题域“集团”下，新建1个业务对象：供应商。在主题域“时空”下，新建1个业务对象：时间。在主题域“公共维度”下，新建1个业务对象：公共维度。以在主题域“行程记录”下新建业务对象“原始记录”为例，新建业务对象的步骤如下，其他业务对象也请参照以下步骤进行添加：选中已创建的L2层主题“行程记录”。单击右键，选择“新建”。或者单击右侧的“新建”按钮。在弹出窗口中，“名称”和“编码”请参照表2中的“业务对象名称”和“业务对象编码”进行填写，其他参数可根据实际情况进行填写，配置完成后单击“确定”完成业务对象新建。业务对象创建完成后，您需要勾选业务对象，并单击“发布”，发布业务对象。在弹出的“批量发布”对话框中选择审核人，再单击“确认提交”，等待审核人员审核通过后，业务对象发布成功。如果当前账号具备审核人权限，也可以勾选“自助审批”，直接提交即可以审核通过。图9 发布业务对象

数据治理中心 DATAARTS STUDIO 使用教程
数据治理中心 DATAARTS STUDIO-数据架构示例:添加审核人

添加审核人在数据架构中，数据建模流程中的步骤都需要经过审批，因此，需要先添加审核人。 Administrator角色或该工作空间管理员，具备对应的添加审核人的权限。在DataArts Studio控制台首页，选择对应工作空间的“数据架构”模块，进入数据架构页面。单击左侧导航树中的“配置中心”，进入相应页面后，在“审核人管理”页签，单击“添加”按钮。选择审核人（工作空间管理员、开发者、自定义角色审批），输入正确的电子邮箱和手机号，单击“确定”完成审核人添加。您也可以添加自己当前账号为审核人，在后续提交审批的相关操作中，支持进行“自助审批”。根据需要，可以添加多个审核人。图1 添加审核人

数据治理中心 DATAARTS STUDIO 使用教程
数据治理中心 DATAARTS STUDIO-OBS数据迁移到云搜索服务:创建CDM集群

创建 CDM 集群如果是独立CDM服务，参考创建集群创建CDM集群；如果是作为DataArts Studio服务CDM组件使用，参考创建集群创建CDM集群。关键配置如下： CDM集群的规格，按待迁移的数据量选择，一般选择cdm.medium即可，满足大部分迁移场景。 CDM集群的VPC必须和云搜索服务集群所在VPC一致，且推荐子网、安全组也与云搜索服务一致。如果安全控制原因不能使用相同子网和安全组，那么需要确保安全组规则能允许CDM访问云搜索服务集群。

数据治理中心 DATAARTS STUDIO 使用教程
云数据迁移 CDM-OBS数据迁移到DLI服务:创建CDM集群

创建CDM集群如果是独立CDM服务，参考创建集群创建CDM集群；如果是作为DataArts Studio服务CDM组件使用，参考创建集群创建CDM集群。该场景下，如果CDM集群只是用于迁移OBS数据到 DLI ，不需要迁移其他数据源，则CDM集群所在的VPC、子网、安全组选择任一个即可，没有要求，CDM通过内网访问DLI和OBS。主要是选择CDM集群的规格，按待迁移的数据量选择，一般选择cdm.medium即可，满足大部分迁移场景。

云数据迁移 CDM 使用教程
云数据迁移 CDM-OBS数据迁移到DLI服务:创建CDM集群

创建CDM集群如果是独立CDM服务，参考创建集群创建CDM集群；如果是作为DataArts Studio服务CDM组件使用，参考创建集群创建CDM集群。该场景下，如果CDM集群只是用于迁移OBS数据到DLI，不需要迁移其他数据源，则CDM集群所在的VPC、子网、安全组选择任一个即可，没有要求，CDM通过内网访问DLI和OBS。主要是选择CDM集群的规格，按待迁移的数据量选择，一般选择cdm.medium即可，满足大部分迁移场景。

云数据迁移 CDM 使用教程