检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
关系型数据库,如MySQL/PostgreSQL等(可使用RDS类型连接,采集其元数据) 云搜索服务CSS 图引擎服务GES 对象存储服务OBS MRS Hudi组件(MRS Hudi作为一种数据格式,元数据存放在Hive中,操作通过Spark进行。在Hudi表开启“同步hive表配置”后,可通过采集MRS
图5 创建OBS连接 单击“保存”回到连接管理界面。 创建迁移作业 选择“表/文件迁移 > 新建作业”,开始创建从OBS迁移数据到DLI的任务,如图6所示。 图6 创建OBS到DLI的迁移任务 作业名称:用户自定义作业名称。 源连接名称:选择创建OBS连接中的“obslink”。
个人数据安全。 用户名:用于审批,消息通知,作为用户资产的属性存在,获取委托token的key值以及国际化。 用户IP:用于作为用户资产的唯一标识的必要信息存在。 手机号:用于审批及消息通知。 邮箱:用于审批及消息通知。 创建数据库连接的相关信息:包括用于创建数据库类型数据源所需
数据集成提供30+同构/异构数据源之间数据集成的功能,帮助您实现数据自由流动。支持自建和云上的文件系统,关系数据库,数据仓库,NoSQL,大数据云服务,对象存储等数据源。 数据集成基于分布式计算框架,利用并行化处理技术,支持用户稳定高效地对海量数据进行移动,实现不停服数据迁移,快速构建所需的数据架构。
*选择样本 选择已上传至OBS或HDFS中的样本文件。样本文件只支持txt格式,大小建议不超过10MB,其中的数据可通过换行“\n”、空格“ ”、英文逗号“,”、或分隔符“|”进行分隔。 注意,OBS样本文件只能用于DLI引擎的静态脱敏任务,HDFS样本文件只能用于MRS引擎的静态脱敏
Studio 授权用户使用DataArts Studio 管理中心 根据自身的业务特点和源数据类型,进行数据存储与分析系统的选型,选取合适的云服务用于存储源数据并进行数据查询和分析。然后,创建该云服务相应的数据连接。 新建数据连接 创建DataArts Studio数据连接 数据集成 通过DataArts
置空:支持所有类型,将值设置为null。 随机脱敏:支持日期类型和数值类型随机脱敏,将日期或数值脱敏为指定区间范围之内或样本库中的值。新建样本库的请参考管理样本库章节。注意,选择样本库脱敏时,OBS样本文件只能用于DLI引擎的静态脱敏任务,HDFS样本文件只能用于MRS引擎的静态脱敏任务。静态
由于字段值也包含了分隔符,所以无法使用分隔符进行字段分隔,此时可以使用正则表达式分隔。 正则表达式参数在源端作业参数中配置,要求源连接为对象存储或者文件系统,且“文件格式”必须选择“CSV格式”。 图1 正则表达式参数 在迁移CSV格式的文件时,CDM支持使用正则表达式分隔字段,
由于字段值也包含了分隔符,所以无法使用分隔符进行字段分隔,此时可以使用正则表达式分隔。 正则表达式参数在源端作业参数中配置,要求源连接为对象存储或者文件系统,且“文件格式”必须选择“CSV格式”。 图1 正则表达式参数 在迁移CSV格式的文件时,CDM支持使用正则表达式分隔字段,
单击“下一步”配置OBS连接参数,如图5所示。 名称:用户自定义连接名称,例如“obslink”。 OBS服务器、端口:配置为OBS实际的地址信息。 访问标识(AK)、密钥(SK):登录OBS的AK、SK。 您可以通过如下方式获取访问密钥。 登录控制台,在用户名下拉列表中选择“我的凭证”。
Studio的过程中,可能还会产生以下相关服务的费用,敬请知悉: OBS服务:在数据集成或数据开发时,DataArts Studio会将脏数据或日志文件写入到OBS服务中,则会产生对象存储服务费用,收费标准请参见OBS价格详情。 APIG服务:在使用数据服务共享版发布API到API
Hive开启LDAP认证时配置的密码。 - OBS支持 需服务端支持OBS存储。在创建Hive表时,您可以指定将表存储在OBS中。 否 访问标识(AK) 当“OBS支持”参数选择为“是”时,此参数是必选项。请注意,此处AK/SK对应的账号应具备OBS Buckets Viewer系统权限,否则会无法访问OBS并报“403
录的是HDFS上的文件路径。 是 列表文件源连接 文本文件存储在OBS桶中,这里需要选择已建立的OBS连接。 obs_link 列表文件OBS桶 存储文本文件的OBS桶名称。 obs-cdm 列表文件或目录 在OBS中存储文本文件的文件自定义目录,多级目录可用“/”进行分隔。 test1
在创建连接页面,选择“对象存储服务(OBS)”,新建CDM到OBS的连接,数据连接名称为“obs_link”。 表1 OBS连接的参数 参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 obs_link OBS终端节点 终端节点(
OBS数据连接参数说明 表1 对象存储服务(OBS)连接 参数 是否必选 说明 数据连接类型 是 OBS连接固定选择为OBS。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。
配置OBS目的端参数 作业中目的连接为OBS连接时,即导入数据到云服务OBS时,目的端作业参数如表1所示。 高级属性里的参数为可选参数,默认隐藏,单击界面上的“显示高级属性”后显示。 表1 OBS作为目的端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 桶名 写入数据的OBS桶名。
Studio使用弹性公网IP服务(Elastic IP,简称EIP)打通与公网间的网络通信。 对象存储服务 DataArts Studio使用对象存储服务(Object Storage Service,简称OBS)的桶存储日志信息。 消息通知服务 DataArts Studio使用消息通知服务(Simple
选择是否校验MD5值,不能与KMS加密同时使用。使用二进制格式传输文件时,才能校验MD5值。 计算源文件的MD5值,并与OBS返回的MD5值进行校验。如果源端已经存在MD5文件,则直接读取源端的MD5文件与OBS返回的MD5值进行校验。 toJobConfig.recordMD5Result 否 Boolean
该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。 Oracle同步到MRS Hudi作业配置 消息系统 DMS Kafka 对象存储:OBS DMS Kafka同步到OBS作业配置 Apache Kafka Hadoop:MRS Kafka 说明: 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。
单击“新建连接”来创建OBS连接,连接类型选择“对象存储服务(OBS)”后单击“下一步”,配置OBS连接参数,如图3所示。 图3 创建OBS连接 名称:用户自定义连接名称,例如“obslink”。 OBS终端节点:配置为OBS的域名或IP地址,例如“obs.myhuaweicloud