检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
记录数据迁移入库时间 CDM在创建表/文件迁移的作业,支持连接器源端为关系型数据库时,在表字段映射中使用时间宏变量增加入库时间字段,用以记录关系型数据库的入库时间等用途。 前提条件 已创建连接器源端为关系型数据库,以及目的端数据连接。 目的端数据表中已有时间日期字段或时间戳字段。
过黄色进行标识。 单任务作业支持SQL编辑器风格配置。单击“风格配置”,可以对编辑器、操作栏、注释模板进行配置、以及查询SQL脚本编辑器可使用的快捷键。 单任务SQL查询结果展示支持表格和列表两种展示方式。单击“风格配置”,在“编辑器配置”里面可以对SQL查询结果展示进行配置。
HANA作为源端作业参数如表1所示。 表1 SAP HANA作源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 使用SQL语句 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 否 SQL语句 “使用SQL语句”选择“是”时,您可以在这里输入自定义的SQL语句,CDM将根据该语句导出数据。
创建表达式转换器时,表达式的功能是对该字段的数据进行处理,故不建议使用时间宏。 如果是导入到数据仓库服务(DWS),则还需在目的字段中选择分布列,建议按如下顺序选取分布列: 有主键可以使用主键作为分布列。 多个数据段联合做主键的场景,建议设置所有主键作为分布列。 在没有主键的场景下,如果没有选
删除OBS桶或目录的路径。 说明: 删除的文件将无法恢复,如需保留文件,请在删除前备份该桶下的数据。 表2 高级参数 参数 是否必选 说明 节点执行的最长时间 是 设置节点执行的超时时间,如果节点配置了重试,在超时时间内未执行完成,该节点将会再次重试。 失败重试 是 节点执行失败后,是否重新执行节点。 是:重新执行节点,请配置以下参数。
1所示。 表1 DWS作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 使用SQL语句 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 否 SQL语句 “使用SQL语句”选择“是”时,您可以在这里输入自定义的SQL语句,CDM将根据该语句导出数据。
Hive支持Ranger场景。 不支持ZK开启SSL场景。 MRS HDFS建议使用的版本: 2.8.X 3.1.X MRS HBase建议使用的版本: 2.1.X 1.3.X MRS Hive、MRS Hudi暂不支持2.x版本,建议使用的版本: 1.2.X 3.1.X 当前暂不支持对接“Kerb
Hive支持Ranger场景。 不支持ZK开启SSL场景。 MRS HDFS建议使用的版本: 2.8.X 3.1.X MRS HBase建议使用的版本: 2.1.X 1.3.X MRS Hive、MRS Hudi暂不支持2.x版本,建议使用的版本: 1.2.X 3.1.X 当前暂不支持对接“Kerb
rts Studio企业模式环境隔离。 授权用户使用DataArts Studio 为协同使用DataArts Studio的项目成员创建具备“DAYU User”权限的IAM账号,并匹配对应的工作空间角色。 具体请参见授权用户使用DataArts Studio章节创建用户并授予权限。
本入门示例涉及DataArts Studio数据集成、管理中心和数据开发模块,DataArts Studio各版本均可以满足使用要求。 操作流程如下: 准备工作,包括使用DataArts Studio前的准备、数据源准备、数据湖准备和认证数据准备。 创建数据迁移作业,将OBS数据迁移到DWS。
页面。 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”。 在脚本目录顶部,单击,选择“责任人转移”。 图1 责任人转移 分别设置“当前责任人”和“目标责任人”,单击“转移”。 提示转移成功后,单击“关闭”。 相关操作 您可以根据脚本责任人筛选脚本,在脚本目录上方的搜
创建OBS目录:选择需要创建目录的路径,在路径后输入“/目录名”,目录名不允许重名。 表2 高级参数 参数 是否必选 说明 节点执行的最长时间 是 设置节点执行的超时时间,如果节点配置了重试,在超时时间内未执行完成,该节点将会再次重试。 失败重试 是 节点执行失败后,是否重新执行节点。 是:重新执行节点,请配置以下参数。
DataArts Studio支持对接入数据进行结构分析,重新建模,最终打破数据孤岛,帮助企业建立统一数据模型。 在实际使用中,经常需要DataArts Studio和ROMA的密切配合使用,支撑用户的数字化转型。 父主题: 咨询与计费
节点名称,只能包含英文字母、数字、中文字符、中划线、下划线、/、<>和点号,且长度小于等于128个字符。 表2 高级参数 参数 是否必选 说明 节点执行的最长时间 是 设置节点执行的超时时间,如果节点配置了重试,在超时时间内未执行完成,该节点将会再次重试。 失败重试 是 节点执行失败后,是否重新执行节点。 是:重新执行节点,请配置以下参数。
系。 如果是导入到数据仓库服务(DWS),则还需在目的字段中选择分布列,建议按如下顺序选取分布列: 有主键可以使用主键作为分布列。 多个数据段联合做主键的场景,建议设置所有主键作为分布列。 在没有主键的场景下,如果没有选择分布列,DWS会默认第一列作为分布列,可能会有数据倾斜风险。
页面。 在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”。 在作业目录顶部,单击,选择“责任人转移”。 图1 责任人转移 分别设置“当前责任人”和“目标责任人”,单击“转移”。 提示转移成功后,单击“关闭”。 相关操作 您还可以根据作业责任人筛选作业,在作业目录上方的
String 每次请求提交的数据行数。 linkConfig.usingNative 否 Boolean 是否使用数据库本地API加速。 创建MySQL连接时,使用本地API加速,可以使用MySQL的LOAD DATA功能加快数据导入,提高导入数据到MySQL数据库的性能。 说明: REPLACE
Studio管理中心数据连接与数据集成数据连接相互独立,使用场景各有不同。 管理中心的数据连接用于对接数据湖底座,DataArts Studio基于数据湖底座,提供一站式数据开发、治理和服务等能力。 数据集成的数据连接仅限于在数据集成中使用,用于将源端原始数据集成到目的端数据湖底座中。 父主题:
工作空间管理员角色的用户,无论是否被添加为审核人,都默认具备审核人权限。 管理审核人 数据服务平台提供管理审核人的功能,您可在审核中心新建和删除审核人,下面以新建审核人为例介绍如何操作。 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts Studio
模式,只能使用STANDALONE模式。 选择STANDALONE模式时,CDM支持在多个MRS集群的HDFS之间迁移数据。 若在一个CDM中同时连接两个及以上开启Kerberos认证且realm相同的集群,只能使用EMBEDDED运行模式连接其中一个集群,其余需使用STANDALONE。