检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
华为数据治理效果 以财经为例,在数据治理前存在很多问题,如由于IT系统的烟囱式建设,导致一个角色跨多个IT系统操作,效率低;数据获取难,手工处理多,单一个收入管理需要从5个系统导出数据,约11个人总共花费50小时完成分析。 通过数据治理,华为可以做到3天月度财务报告出初稿、5天月度财务报告出终稿
DataArts Studio和ROMA有什么差异? 从数据运营方案(数据中台)的数据集成、数据治理以及数据开放三层结构来看,DataArts Studio和ROMA主要差别在于数据治理方面: ROMA作为连接各个系统的管道,对接入数据没有治理和规划的功能。 DataArts Studio
配置任务组 通过配置任务组,可以更细粒度的进行当前任务组中的作业节点的并发数控制。 约束限制 该功能不支持实时处理作业,只支持批处理作业。 任务组不能跨工作空间去使用。 对于Pipeline作业,每个节点都可以配置一个任务组,也可以在作业里面统一配置任务组,如果配置了作业级任务组,
数据治理组织职责 在战略层面,由数据治理Sponsor和各部门负责人组成的数据治理领导组制定数据治理的战略方向,以构建数据文化和氛围为纲,整体负责数据治理工作的开展、政策的推广和执行,并作为数据治理问题的最终决策组织解决争议,监控和监督数据治理工作的绩效,并确保数据治理工作预算支持
权限列表 工作空间成员共有管理员、开发者、部署者、运维者和访客五种预置角色,并支持自定义角色。 管理员:工作空间管理员,拥有工作空间内所有的业务操作权限。建议将项目负责人、开发责任人、运维管理员设置为管理员角色。 开发者:开发者拥有工作空间内创建、管理工作项的业务操作权限。建议将任务开发
由系统根据定时任务配置生成,用户无需填写。 files_read Integer 已读文件数。由系统生成,用户无需填写。 update-user String 最后更新作业的用户。由系统生成,用户无需填写。
获取任务日志 功能介绍 获取任务日志。 调用方法 请参见如何调用API。 URI POST /v3/{project_id}/metadata/tasks/{task_id}/{instance_id}/log 表1 路径参数 参数 是否必选 参数类型 描述 project_id
管理样本库 数据安全支持将您提供的OBS或HDFS样本文件生成样本库。当新建随机脱敏或字符替换类型的脱敏算法时,可以选择将敏感数据脱敏为样本库文件中的值。 本章主要介绍如何创建样本。 前提条件 已在OBS或HDFS中上传样本文件。样本文件只支持txt格式,大小建议不超过10MB,其中数据可通过换行
静态脱敏任务 管理脱敏算法 管理样本库 管理脱敏策略 管理静态脱敏任务 父主题: 敏感数据保护
动态脱敏任务 管理动态脱敏策略 订阅动态脱敏策略 父主题: 敏感数据保护
发布作业任务 在企业模式中,开发者提交作业版本后,系统会对应产生一个作业类型的发布任务。开发者确认发布后,待拥有管理员、部署者、DAYU Administrator、Tenant Administrator权限的用户审批通过,然后将修改后的作业同步到生产环境。 管理员导入作业时,选择导入提交态
作业任务参数调优 概述 实时数据集成服务底层使用Flink流处理框架进行开发,因此包含了Flink系统中最重要的两个部分:JobManager和TaskManager。 作业任务配置中调整的处理器核数、并发数、执行内存参数等便是用来调整JobManager和TaskManager的
发布任务包 功能介绍 目前支持发布包管理中相关包的发布,支持发布多个任务包。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。 URI URI格式 POST /v2/{project_id}/factory/release-packages/deploy 参数说明
撤销任务包 功能介绍 目前支持发布包管理中相关包的撤销,支持撤销多个任务包。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。 URI URI格式 POST /v2/{project_id}/factory/release-packages/unpack 参数说明
创建采集任务 功能介绍 创建采集任务。 调用方法 请参见如何调用API。 URI POST /v3/{project_id}/metadata/tasks/create 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参见项目
管理脱敏算法 为了方便对数据进行脱敏,在创建脱敏策略前,需要您准备好脱敏算法。当前系统已内置20+脱敏算法,如果内置算法可以满足您的需求,您需要提前配置对应算法参数;否则,您可以新建脱敏算法。 本章主要介绍内置脱敏算法,和如何新建脱敏算法。 约束与限制 新建随机脱敏或字符替换类型的脱敏算法时
编辑采集任务 功能介绍 编辑采集任务。 调用方法 请参见如何调用API。 URI PUT /v3/{project_id}/metadata/tasks/{task_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参见项目
管理脱敏策略 在实际生产中,会存在数据分析部门需要对数据进行数据分析,数据中存在敏感信息,但又不得不开放权限。此时就可以建立脱敏策略并对敏感数据进行脱敏,在满足业务需要的同时保证了数据的真实性不被泄露。 本章主要介绍如何创建脱敏策略。此处的脱敏策略仅适用于静态脱敏任务。 前提条件
动态修改任务配置 Migration实时集成任务拥有断点续传能力,支持用户通过“暂停 > 恢复”的方式动态加减表、修改任务配置、资源参数等,便于用户根据自身需求调整作业。 前提条件 实时集成作业正在运行中。 操作步骤 暂停运行中的实时集成作业。 方式一: 登录DataArts Studio
查看数据血缘 首先在数据目录组件完成元数据采集任务,当数据开发作业满足自动血缘解析要求或已手动配置血缘,然后成功完成作业调度后,则可以在数据目录模块可视化查看数据血缘关系。 约束限制 数据血缘关系更新依赖于作业调度,数据血缘关系是基于最新的作业调度实例产生的。 对于同一版本的数据开发作业