检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
授权dlg_agency委托 云服务委托可将相关云服务的操作权限委托给DataArts Studio,让DataArts Studio以您的身份使用这些云服务,代替您进行一些任务调度、资源运维等工作。首次进入DataArts Studio控制台首页时,系统会弹出访问授权的对话框,
新建码表 码表,也称lookup表、数据字典表,一般由中英文名称编码组成,由可枚举数据构成,存储枚举数据名称与编码的映射关系。码表的作用主要有: 在数据清洗中用于标准化业务数据以及补充映射字段。 在质量监控中用于监控业务数据的值域范围。 在维度建模中可以引申为枚举维度。 新建码表并发布
配置数据表权限(待下线) 在已上线数据安全组件的区域,数据表权限功能已由数据安全组件提供,不再作为数据目录组件能力。 数据安全组件当前在华东-上海一、华东-上海二、华北-乌兰察布一、华北-北京四、华南-广州和西南-贵阳一区域部署上线。 用户可以在“我的权限”页面,查看工作空间内自
导入导出 数据架构支持流程、主题、码表、数据标准、关系建模表(物理表)、逻辑实体、维度建模维度/事实表、业务指标、技术指标、数据集市汇总表的导入导出,暂不支持时间限定、审核中心和配置中心数据的导入导出。 本例中以导入和导出关系建模表为例说明如何进行导入导出,其他数据操作类似。如果
业务指标 经过数据调研和需求分析之后,您需要根据需求落地指标。指标是衡量目标总体特征的统计数值,是能表征企业某一业务活动中业务状况的数值指示器。指标一般由指标名称和指标数值两部分组成,指标名称及其涵义体现了指标质的规定性和量的规定性两个方面的特点,指标数值反映了指标在具体时间、地点、条件下的数量表现。
配置FTP/SFTP源端参数 表1 FTP/SFTP作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 源目录或文件 要传输的目录或单个文件路径。 FROM_DIRECTORY/ or FROM_DIRECTORY/example.csv 文件格式 传输数据时使用的格式。
自然周期调度之上一周期依赖原理 自然周期调度的概念 自然周期调度作业的调度周期包括分钟、小时、天、周、月这五种周期,不同调度周期的作业,其允许配置的依赖作业调度周期总结如图1所示。 图1 上一周期作业依赖关系全景图 即作业A的调度依赖于作业B的上一调度周期,包含以下场景: 分钟依赖分钟
发现敏感数据 完成了敏感数据识别规则组定义后,就可以根据定义的规则来创建敏感数据识别任务,发现敏感数据,并将敏感数据同步到数据地图组件。 敏感数据发现任务运行后,为使该识别规则在静态脱敏任务中生效,必须在“敏感数据分布>手工修正”页面对任务中的识别规则进行“确认”,使规则状态变更为“有效”。
查看数据资产 通过数据目录可以对各类资产进行搜索、过滤、查看详情等操作。 业务资产来自于数据架构组件中定义并发布过的逻辑实体与数据表。 技术资产中的数据连接来源于管理中心的数据连接,库表列等来源于数据目录的元数据采集任务。 指标资产来自于数据架构组件中定义并发布过的业务指标。 约束限制
新建数据质量作业 质量作业可将创建的规则应用到建好的表中进行质量监控。 配置流程 在DataArts Studio控制台首页,选择对应工作空间的“数据质量”模块,进入数据质量页面。 (可选)选择“数据质量监控 > 质量作业”,新建目录。如果已存在可用的目录,可以不用新建目录。注意
批作业监控 批作业监控提供了对批处理作业的状态进行监控的能力。 批处理作业支持作业级别的调度计划,可以定期处理批量数据,主要用于实时性要求低的场景。批作业是由一个或多个节点组成的流水线,以流水线作为一个整体被调度。被调度触发后,任务执行一段时间必须结束,即任务不能无限时间持续运行。
约束与限制 CDM系统级限制和约束 DataArts Studio实例赠送的数据集成集群,由于规格限制,仅用于测试业务、数据连接代理场景。 用于运行数据迁移作业的其他规格CDM集群可以在DataArts Studio控制台以增量包的形式购买,也可以在云数据迁移CDM服务控制台直接购买。二者差异体现在如下方面:
同Region同租户直接连通网络 在配置实时同步任务前,您需要确保源端和目的端的数据库与运行实时同步任务的实时计算资源组之间网络连通,您可以根据数据库所在网络环境,选择合适的网络解决方案来实现网络连通。 本章节主要为您介绍数据库部署在华为云,且与Migration资源组同Region同租户场景下的网络打通方案。
新建数据对账作业 数据对账对于数据开发和数据迁移流程中的数据一致性至关重要,而跨源数据对账的能力是检验数据迁移或数据加工前后是否一致的关键指标。 数据质量监控中的对账作业支持跨源数据对账能力,可将创建的规则应用到两张表中进行质量监控,并输出对账结果。 创建作业 在DataArts
开发Pipeline作业 对已新建的作业进行开发和配置。 开发Pipeline模式的批处理作业和实时处理作业,请您参考编排作业节点、配置作业基本信息、配置作业参数和调测并保存作业章节。 前提条件 已创建作业,详情请参见新建作业。 当前用户已锁定该作业,否则需要通过“抢锁”锁定作业
获取对账作业详情 功能介绍 获取对账作业详情。 调用方法 请参见如何调用API。 URI GET /v2/{project_id}/quality/consistency-tasks/{id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String
配置元数据采集任务 本章主要介绍如何通过配置元数据采集策略新建采集任务,不同类型的数据源对应的采集策略不尽相同。元数据管理依据采集任务的配置策略,采集对应的技术元数据信息。 约束与限制 当元数据采集任务未指定采集范围时,默认采集该数据连接下的所有数据表/文件。采集任务运行完成后,
同Region不同租户通过对等连接连通网络 在配置实时同步任务前,您需要确保源端和目的端的数据库与运行实时同步任务的实时计算资源组之间网络连通,您可以根据数据库所在网络环境,选择合适的网络解决方案来实现网络连通。 本章节主要为您介绍数据库部署在华为云,且与Migration资源组
跨Region通过云连接连通网络 在配置实时同步任务前,您需要确保源端和目的端的数据库与运行实时同步任务的实时计算资源组之间网络连通,您可以根据数据库所在网络环境,选择合适的网络解决方案来实现网络连通。 本章节主要为您介绍数据库部署在华为云,且与Migration资源组不同Reg
创建数据集成作业 本章节将介绍如何创建DataArts Studio数据集成作业。 本例中,需要创建如下三类集成作业: OBS到MySQL迁移作业:为方便演示,需要将OBS中的CSV格式的样例数据导入到MySQL数据库中。 MySQL到OBS迁移作业:正式业务流程中,需要将MyS