检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
云数据库服务 DataArts Studio支持将云数据库服务(Relational Database Service,简称RDS)作为作为数据源,进行数据集成、开发与开放。
如果您需要将旧版本模式升级为新版本模式,可以参考如下步骤进行操作: 参考访问DataArts Studio实例控制台,以华为账号、拥有DAYU Administrator或Tenant Administrator权限的用户登录DataArts Studio控制台。
如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式。 选择STANDALONE模式时,CDM支持在多个MRS集群的HDFS之间迁移数据。
否 忽略不存在原路径/文件 如果将其设为是,那么作业在源路径不存在的情况下也能成功执行。 否 MD5文件名后缀 校验CDM抽取的文件,是否与源文件一致,详细请参见MD5校验文件一致性。
src_table_ids String 源表ID。 src_table_names Array of strings 源表名称数组,只读。 src_table_db_names Array of strings 源表db名称数组,只读。
源目的统计查询 可对已经配置好的数据库类作业打开预览窗口,预览最多1000条数据内容。可对比源端和目的端的数据,也可以通过对比记录数来看迁移结果是否成功、数据是否丢失。 修改 修改作业参数 可重新配置作业参数,支持重新选择源连接和目的连接。
多源性:同一个数据可以有多个来源(多个父亲)。一个数据可以是多个数据经过加工而生成的,而且这种加工过程可以是多个。 可追溯性:数据的血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。 层次性:数据的血缘关系是有层次的。
debezium.max.queue.size int 8192 数据缓存队列条数,默认为8192,当源表中单条数据过大时(如1MB),缓存过多数据会导致内存溢出,可以考虑减小该值。
图1 配置安全管理员 查看数据概况 在总览页,用户可以根据日期,根据不同数据源类型。
表1 OBS连接的参数 参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 obs_link OBS终端节点 终端节点(Endpoint)即调用API的请求地址,不同服务不同区域的终端节点不同。
多源性:同一个数据可以有多个来源(多个父亲)。一个数据可以是多个数据经过加工而生成的,而且这种加工过程可以是多个。 可追溯性:数据的血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。 层次性:数据的血缘关系是有层次的。
src_table_ids String 源表ID。 src_table_names Array of strings 源表名称数组,只读。 src_table_db_names Array of strings 源表db名称数组,只读。
图1 集群列表 如果用户对本地数据源的访问通道做了SSL加密,则CDM无法通过弹性IP连接数据源。 创建MySQL连接 在CDM集群管理界面,单击集群后的“作业管理”,选择“连接管理 > 新建连接”,进入连接器类型的选择界面,如图2所示。
图8 勾选导入的资源类型 如果选择导入数据源,则单击“下一步”需要配置数据连接。 图9 配置数据连接 单击“下一步”,等待导入任务下发,导入任务成功下发后系统提示“导入开始”。 图10 导入开始 系统提示“导入开始”后,单击“确定”,可在资源迁移任务列表中查看导入结果。
如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式。 选择STANDALONE模式时,CDM支持在多个MRS集群的HDFS之间迁移数据。
datasource_type 否 String 数据源类型 HIVE数据源 parent_permission_set_id 否 String 父权限集ID。获取方法请参见查询权限集列表 注意: 当该值为父权限集ID时,则基于父权限集中的权限查询。
图8 表/文件迁移 按照如下步骤将数据源准备中的4张原始数据表,依次从OBS迁移到MySQL数据库中。 配置作业vertex_user_obs2rds。
约束与限制 数据集成(离线作业)的表数据迁移和数据安全敏感数据发现中的推荐识别场景下,仅支持MRS Hive、DWS、DLI和RDS MySQL数据源。 数据集成(离线作业)的表敏感数据检测对表内容格式要求如下: 表字段数量至多为500。
MRS Hive数据源的“SM3”、“自定义/保留前x后y”和“自定义/掩盖前x后y”这几种脱敏规则非MRS Ranger组件提供,而是通过UDF自定义函数实现的算法。
例如: CREATE TABLE userinfo ( id INT, name STRING); 不同数据源的SQL语法有所差异,开发SQL语句前请预先了解各数据源的语法参考文档。 表3 数据表参数 参数 说明 数据连接类型 数据表所属的数据连接类型。