检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过公网互通时,需确保CDM集群已绑定EIP,数据源所在的主机可以访问公网且防火墙规则已开放连接端口。
表1 CloudTable连接参数 参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 cloudtable_link ZK链接地址 可通过CloudTable服务的集群管理界面获取该参数值。
数据源认证及其他功能配置 用户名 是 主机的登录用户名。 登录方式 是 选择主机的登录方式: 密钥对 密码 密钥对 是 “登录方式”为“密钥对”时,显示该配置项。
表2 Query参数 参数 是否必选 参数类型 描述 datasource 否 String 数据源类型 HIVE数据源 DWS数据源 DLI数据源 cluster_name 否 String 集群名称。 database_name 否 String 数据库名称。
对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离,详细操作请参见DB配置。 离线处理集成作业不支持在企业模式下运行。
约束与限制 当前仅支持对数据仓库服务(DWS)、数据湖探索(DLI)、MapReduce服务(MRS Hive)类型的数据源进行敏感数据识别,且仅支持标准数仓类型的DWS数据源。
默认在DataArts Studio数据开发组件执行脚本、测试运行作业时,数据源(此处指MRS/DWS数据源)会使用数据连接上的账号进行认证鉴权。因此在数据开发时,权限管控依然无法生效。
src_table_ids String 源表ID。 src_table_names Array of strings 源表名称数组,只读。 src_table_db_names Array of strings 源表db名称数组,只读。
多源性:同一个数据可以有多个来源(多个父亲)。一个数据可以是多个数据经过加工而生成的,而且这种加工过程可以是多个。 可追溯性:数据的血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。 层次性:数据的血缘关系是有层次的。
fromTo-unMapping String 表/文件迁移不支持哪些数据源迁移到哪些数据源。 batchFromTo-mapping String 整库迁移支持哪些数据源迁移到哪些数据源。
source_table_id String 源表ID,ID字符串。 target_table_id String 目标表ID,ID字符串。 name String 关系名称。 source_table_name String 源表名称。
表1 CloudTable OpenTSDB连接参数 参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 TSDB_link OpenTSDB链接地址 OpenTSDB的ZK链接地址。
debezium.max.queue.size int 8192 数据缓存队列条数,默认为8192,当源表中单条数据过大时(如1MB),缓存过多数据会导致内存溢出,可以考虑减小该值。
src_table_ids String 源表ID。 src_table_names Array of strings 源表名称数组,只读。 src_table_db_names Array of strings 源表db名称数组,只读。
对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,如图3所示,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离,如图4所示。详细操作请参见DB配置。
说明: 当数据源为DLI时,需要选择运行的队列。 描述 为更好的识别业务指标 ,此处加以描述信息。描述信息长度不能超过4096个字符。 所属目录 业务指标的存储目录,可选择已创建的目录。目录创建请参见图1。 来源类型 支持“自定义”。 用户自定义SQL语句,定义指标的来源。
我们的数据源提供了一张订单表用于计算总金额,和一张门店表用于计算经营面积。考虑到过去一年的经营面积从概念上比较难以界定,我们届时可以采用一些较为简单的计算逻辑,旨在演示整体DataArts Studio数据治理流程,不完全模拟真实指标逻辑和场景。
src_table_ids String 源表ID。 src_table_names Array of strings 源表名称数组,只读。 src_table_db_names Array of strings 源表db名称数组,只读。
如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式。
如果您需要将旧版本模式升级为新版本模式,可以参考如下步骤进行操作: 参考访问DataArts Studio实例控制台,以华为账号、拥有DAYU Administrator或Tenant Administrator权限的用户登录DataArts Studio控制台。