检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
据治理达到以下目标: 数据标准化、模型标准化 统一统计口径,提供高质量数据报告 数据质量监控告警 统计每天收入 统计某月收入 统计不同支付类型收入占比 流程简介 本入门指导将参考如表1所示的流程,实现示例场景的数据治理。 表1 DataArts Studio数据治理流程 主流程 说明
DLI数据连接参数说明 表1 DLI数据连接 参数 是否必选 说明 数据连接类型 是 DLI连接固定选择为数据湖探索(DLI)。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。
配置Hive源端参数 作业中源连接为Hive连接时,源端作业参数如表1所示。 表1 Hive作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 数据库名称 输入或选择数据库名称。单击输入框后面的按钮可进入数据库选择界面。 default 表名 输入或选择Hive表名
改已使用该连接的作业时,数据连接及连接相关配置不可见。 委托 选择需要授权的IAM委托,仅限于委托对象为“数据湖治理中心 DGC”的云服务类型委托。如需新建委托,请参考参考:创建委托。 说明: 对于未选择的委托,则默认该委托权限放开,不做权限管控。 对于选择的委托,则非授权对象的普通用户(即非DAYU
在新版本模式下仅当使用企业版时,才支持配置未来表权限。旧版本模式使用基础版及更高版本时即可支持。 前提条件 配置权限集前,已在管理中心创建数据仓库服务(DWS)类型的数据连接,请参考创建DataArts Studio数据连接。 约束与限制 指定的未来表用户需要有对应Schema下的Create表权限。
支持从Hive导出数据,使用JDBC接口抽取数据。 Hive作为数据源,CDM自动使用Hive数据分片文件进行数据分区。 表1 Hive作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 读取方式 包括HDFS和JDBC两种读取方式。默认为HDFS方式,如果没有使用WHERE条件做数据过滤
“生成元数据”重新生成新的元数据xml文件。 生成的元数据xml文件,属性(Property)中的数据复合类型(Cardinality),目前仅支持填写为“single”类型,不支持自定义。 生成元数据功能本身,支持一次生成多对点表和边表的元数据xml文件。但考虑到Import
c19175d736f05b1945dab4675df19311834ede0d9b1978b11b50c86687baf85c 完成请求消息入参准备。 表2 参数 参数类型 参数说明 使用示例 path参数 路径参数,作为url的一部分,直接替换url中{}标识的参数。 参数:param = xxx 原url
前提条件 MRS集群已开启存算分离功能,已在管理中心创建MapReduce服务(MRS Hive)和MapReduce服务(MRS Ranger)类型的数据连接,请参考创建DataArts Studio数据连接。 使用建库申请功能前,已参考授权dlg_agency委托为dlg_agency委托配置权限。
、ElasticSearch连接器、Kafka连接器,或者目的端为HBase连接器。 添加完字段后,请确保自定义入库时间字段与目的端表字段类型相匹配。 单击“下一步”配置任务参数,一般情况下全部保持默认即可。 单击“保存并运行”,回到作业管理的表/文件迁移界面,在作业管理界面可查看作业执行进度和结果。
、ElasticSearch连接器、Kafka连接器,或者目的端为HBase连接器。 添加完字段后,请确保自定义入库时间字段与目的端表字段类型相匹配。 单击“下一步”配置任务参数,一般情况下全部保持默认即可。 单击“保存并运行”,回到作业管理的表/文件迁移界面,在作业管理界面可查看作业执行进度和结果。
同时,可通过在Hudi的目的端配置中单击“Hudi表属性全局配置”或在映射后的单表“表属性编辑”中,添加优化参数。 图1 添加自定义属性 表1 Hudi写入优化参数 参数名 类型 默认值 说明 hoodie.sink.flush.tasks int 1 Hudi flush数据时的并发数,默认为1,即顺序写入。当H
指标数据的刷新频率。开发者或运维者可以依据指标的刷新频率,合理设置衍生指标的调度频率。 指标应用场景 描述指标的应用场景。 关联技术指标类型 下拉选择与业务指标关联的技术指标类型,包含衍生指标、复合指标和原子指标。 关联技术指标 下拉选择与业务指标关联的技术指标。 度量对象 衡量该指标的度量字段。
ion普通API的节点编码为NormalApi_de62d。 单击画布上的条件分支算子打开配置面板,配置条件分支算子: 并行处理分支的条件类型配置为“满足条件时”,表达式配置为“${NormalApi_ff8bd|payload.data[0].area}”,该表达式含义是获取AreaInformation
情。 当拥有多个工作空间时,您可以按使用者、维护者或用途等各类维度为各工作空间添加标签,然后在工作空间列表页面,可以通过标签搜索、识别不同类型的工作空间。 标签由标签键和标签值组成。在添加标签时,标签键和标签值可以选择在标签管理服务(简称TMS)中创建的预定义标签,也可以直接输入
Service,简称CTS)为用户提供了云账户下资源的操作记录,可以帮您记录相关的操作事件,便于日后的查询、审计和回溯。 表1 支持云审计的关键操作列表 操作名称 资源类型 资源名称 事件名称 查看主题设计 DAYU_DS dsSubject getListSubject 创建主题设计 DAYU_DS dsSubject
},参数名称需要设置为dlf.xxx。 参数值 是 参数值当前支持常量和EL表达式,不支持系统函数。例如支持123,abc;如果参数是字符串类型需要加上英文的双引号(""),如"05"。 关于EL表达式的使用,请参见表达式概述。 描述 否 参数说明。 配置完一个环境变量后,您还可以进行新增、修改、删除、重置等操作。
情。 当拥有多个工作空间时,您可以按使用者、维护者或用途等各类维度为各工作空间添加标签,然后在工作空间列表页面,可以通过标签搜索、识别不同类型的工作空间。 标签由标签键和标签值组成。在添加标签时,标签键和标签值可以选择在标签管理服务(简称TMS)中创建的预定义标签,也可以直接输入
单击已开通实例卡片上的“购买增量包”。 进入购买DataArts Studio增量包页面,参见表1进行配置。 表1 购买数据服务专享版实例参数说明 参数项 说明 增量包类型 选择数据服务专享集群增量包。 计费方式 实例收费方式,当前支持“包年包月”。 工作空间 选择需要使用数据服务专享集群增量包的工作空间。例如需要在DataArts
略添加请参见新增dli-trans*内部临时桶授权策略。 表1 DLI连接参数 参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 dli_link 访问标识(AK) 访问DLI数据库时鉴权所需的AK和SK。 您需要先创建当前账号的访问密钥,并获得对应的AK和SK。