正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
管理脱敏算法 为了方便对数据进行脱敏,在创建脱敏策略前,需要您准备好脱敏算法。当前系统已内置20+脱敏算法,如果内置算法可以满足您的需求,您需要提前配置对应算法参数;否则,您可以新建脱敏算法。 本章主要介绍内置脱敏算法,和如何新建脱敏算法。 约束与限制 新建随机脱敏或字符替换类型的脱敏算法时
查看数据资产 通过数据目录可以对各类资产进行搜索、过滤、查看详情等操作。 业务资产来自于数据架构组件中定义并发布过的逻辑实体与数据表。 技术资产中的数据连接来源于管理中心的数据连接,库表列等来源于数据目录的元数据采集任务。 指标资产来自于数据架构组件中定义并发布过的业务指标。 约束限制
新建维度 维度建模包含维度、维度表和事实表三个部分。 维度是用于观察和分析业务数据的视角,支撑对数据汇聚、钻取、切片分析,用于SQL中的GROUP BY条件。维度多数具有层级结构,如:地理维度(其中包括国家、地区、省以及城市等级别的内容)、时间维度(其中包括年度、季度、月度等级别的内容
资产血缘(邀测) 功能介绍 资产血缘接口,该接口功能处于邀测阶段,后续将随功能公测将逐步开放。 调用方法 请参见如何调用API。 URI GET /v2/{project_id}/datamap/lineage/guid/{guid} 表1 路径参数 参数 是否必选 参数类型 描述
数据架构概述 模型设计方法概述 根据业务需求抽取信息的主要特征,模拟和抽象出一个能够反映业务信息(对象)之间关联关系的模型,即数据模型。数据模型也是可视化的展现企业内部信息如何组织的蓝图。数据模型应满足三方面要求:能比较真实地模拟业务(场景);容易被人所理解;便于在IT系统中实现。
查询指定发布包详情 功能介绍 用于查询指定的发布包详情信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。 URI URI格式 GET /v2/{project_id}/factory/release-packages/{package_id} 参数说明
购买技术资产数量增量包 技术资产数量增量包用于扩充技术资产数量配额。 不同版本的DataArts Studio实例,默认提供了不同的技术资产数量规格限制。该规格是以数据目录中表和OBS文件的数量之和计算的。您可以在新版本模式的DataArts Studio实例卡片上通过“更多 >
主机连接参数说明 表1 主机连接 参数 是否必选 说明 数据连接类型 是 主机连接固定选择为主机连接。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。 说明: 标签的名称,只能包含中文
产品优势 一站式数据运营平台 贯穿数据全流程的一站式治理运营平台,提供全域数据集成、标准数据架构、连接并萃取数据价值、全流程数据质量监控、统一数据资产管理、数据开发服务等,帮助企业构建完整的数据中台解决方案。 全链路数据治理管控 数据全生命周期管控,提供数据架构定义及可视化的模型设计
配置MRS ClickHouse目的端参数 作业中目的连接为MRS ClickHouse连接时,目的端作业参数如表1所示。 当作业源端为MRS ClickHouse、DWS及Hive时: 若int及float类型字段为null时,创建MRS ClickHouse表格时字段类型需设置为
通知周期概览 操作场景 用户可以按照天/周/月为调度周期配置通知任务,向相关人员发送通知。让相关人员可以定期跟踪作业的调度情况(作业调度成功数量,作业调度失败异常数量以及作业失败详情)。 约束限制 该功能依赖于OBS服务。 前提条件 已开通消息通知服务并配置主题,为主题添加订阅。
发布脚本任务 在企业模式中,开发者提交脚本版本后,系统会对应产生一个脚本类型的发布任务。开发者确认发包后,待拥有管理员、部署者、DAYU Administrator、Tenant Administrator权限的用户审批通过,然后将修改后的脚本同步到生产环境。 管理员导入脚本时,选择导入提交态
管理文件水印 本章主要介绍如何进行文件水印相关操作。 对结构化数据文件(csv、xml和json)注入暗水印,水印内容不可见,需要进行水印提取。 对非结构化数据文件(docx、pptx、xlsx和pdf)注入明水印,可在本地打开文件,查看水印内容。 约束与限制 结构化数据文件暗水印的注入和提取时
配置HBase/CloudTable源端参数 作业中源连接为HBase连接或CloudTable连接时,即从MRS HBase、FusionInsight HBase、Apache HBase或者CloudTable导出数据时,源端作业参数如表1所示。 CloudTable或HBase
发布作业任务 在企业模式中,开发者提交作业版本后,系统会对应产生一个作业类型的发布任务。开发者确认发布后,待拥有管理员、部署者、DAYU Administrator、Tenant Administrator权限的用户审批通过,然后将修改后的作业同步到生产环境。 管理员导入作业时,选择导入提交态
如果是导入到数据仓库服务(DWS),则还需在目的字段中选择分布列,建议按如下顺序选取分布列: 有主键可以使用主键作为分布列。 多个数据段联合做主键的场景,建议设置所有主键作为分布列。 在没有主键的场景下,如果没有选择分布列,DWS会默认第一列作为分布列,可能会有数据倾斜风险。
如果是导入到数据仓库服务(DWS),则还需在目的字段中选择分布列,建议按如下顺序选取分布列: 有主键可以使用主键作为分布列。 多个数据段联合做主键的场景,建议设置所有主键作为分布列。 在没有主键的场景下,如果没有选择分布列,DWS会默认第一列作为分布列,可能会有数据倾斜风险。
查找主题列表(新) 功能介绍 查找主题(新)。 调用方法 请参见如何调用API。 URI GET /v3/{project_id}/design/subjects 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参见项目ID
数据架构示例 DataArts Studio数据架构以关系建模、维度建模理论支撑,实现规范化、可视化、标准化数据模型开发,定位于数据治理流程设计落地阶段,输出成果用于指导开发人员实践落地数据治理方法论。 本章节操作场景如下: 对MRS Hive数据湖中的出租车出行数据进行数据模型设计
提交版本 提交版本涉及到数据开发的版本管理功能。 版本管理:用于追踪脚本/作业的变更情况,支持版本对比和回滚。系统最多保留最近100条的版本记录,更早的版本记录会被删除。另外,版本管理还可用于区分开发态和生产态,这两种状态隔离,互不影响。 开发态:未提交版本的脚本/作业为开发态,仅用于个人调试开发