请确保数据源所在的主机和CDM集群均能访问公网,并且防火墙规则已开放连接端口。 如果数据湖为云上服务(如DWS、MRS等),则网络互通需满足如下条件: CDM集群与云上服务处于不同区域的情况下,需要通过公网或者专线打通网络。
src_table_ids String 源表ID。 src_table_names Array of strings 源表名称数组,只读。 src_table_db_names Array of strings 源表db名称数组,只读。
如需从其他数据源逆向数据库到码表目录中,需要先在DataArts Studio管理中心创建一个数据连接,以便连接数据源。创建数据连接的操作,请参见配置DataArts Studio数据连接参数。 *数据库 选择数据库。 *Schema 下拉选择Schema。
由于安全原因,CDM不会将对应数据源的连接密码导出。因此在重新导入前,需要通过手工编辑导出的JSON文件补充密码或在导入窗口配置密码。 从本地导入JSON文件时,导入文件大小不能超过1MB。
云数据库服务 DataArts Studio支持将云数据库服务(Relational Database Service,简称RDS)作为作为数据源,进行数据集成、开发与开放。
编写SQL脚本,从源表table1这张数据表里面获取最大时间值数据。 select max(time) from table1 保存并提交版本。脚本maxtime创建完成。 创建一个Pipeline子作业 在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”。
src_table_ids String 源表ID。 src_table_names Array of strings 源表名称数组,只读。 src_table_db_names Array of strings 源表db名称数组,只读。
否 忽略不存在原路径/文件 如果将其设为是,那么作业在源路径不存在的情况下也能成功执行。 否 MD5文件名后缀 校验CDM抽取的文件,是否与源文件一致,详细请参见MD5校验文件一致性。
如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式。 选择STANDALONE模式时,CDM支持在多个MRS集群的HDFS之间迁移数据。
如果您需要将旧版本模式升级为新版本模式,可以参考如下步骤进行操作: 参考访问DataArts Studio实例控制台,以华为账号、拥有DAYU Administrator或Tenant Administrator权限的用户登录DataArts Studio控制台。
源目的统计查询 可对已经配置好的数据库类作业打开预览窗口,预览最多1000条数据内容。可对比源端和目的端的数据,也可以通过对比记录数来看迁移结果是否成功、数据是否丢失。 修改 修改作业参数 可重新配置作业参数,支持重新选择源连接和目的连接。
多源性:同一个数据可以有多个来源(多个父亲)。一个数据可以是多个数据经过加工而生成的,而且这种加工过程可以是多个。 可追溯性:数据的血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。 层次性:数据的血缘关系是有层次的。
WORKSPACE_PERMISSION_SET_MANAGER,权限集管理员PERMISSION_SET_MANAGER 表5 ListTableApproversRequestBody 参数 是否必选 参数类型 描述 instance_id 否 String 实例id datasource_type 否 String 数据源类型
src_table_ids String 源表ID。 src_table_names Array of strings 源表名称数组,只读。 src_table_db_names Array of strings 源表db名称数组,只读。
源表:本示例选择原始数据表“sdi_taxi_trip_data”,标准出行数据表的数据均来源于该原始数据表。 图30 新建映射 字段映射: 在“字段映射”区域,依次为表中的字段设置源字段,所选择的源字段应与表中的字段代表相同含义,一一对应。
debezium.max.queue.size int 8192 数据缓存队列条数,默认为8192,当源表中单条数据过大时(如1MB),缓存过多数据会导致内存溢出,可以考虑减小该值。
多源性:同一个数据可以有多个来源(多个父亲)。一个数据可以是多个数据经过加工而生成的,而且这种加工过程可以是多个。 可追溯性:数据的血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。 层次性:数据的血缘关系是有层次的。
表1 OBS连接的参数 参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 obs_link OBS终端节点 终端节点(Endpoint)即调用API的请求地址,不同服务不同区域的终端节点不同。
src_table_ids String 源表ID。 src_table_names Array of strings 源表名称数组,只读。 src_table_db_names Array of strings 源表db名称数组,只读。
datasource_type 否 String 数据源类型 HIVE数据源 parent_permission_set_id 否 String 父权限集ID。获取方法请参见查询权限集列表 注意: 当该值为父权限集ID时,则基于父权限集中的权限查询。
您即将访问非华为云网站,请注意账号财产安全