检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
敏感数据治理 敏感数据治理流程 定义数据密级 定义数据分类 定义识别规则 定义识别规则分组 发现敏感数据 查看敏感数据分布 管控敏感数据 父主题: 数据安全
数据开发概述 数据开发是一个一站式的大数据协同开发平台,提供全托管的大数据调度能力。它可管理多种大数据服务,极大降低用户使用大数据的门槛,帮助您快速构建大数据处理中心。 数据开发模块曾被称为数据湖工厂(Data Lake Factory,后简称DLF)服务,因此在本文中,“数据湖
统一权限治理 权限治理使用流程 授权dlg_agency委托 检查集群版本与权限 同步IAM用户到数据源 数据权限访问控制 服务资源访问控制 Ranger权限访问控制 父主题: 数据安全
MD5校验文件一致性 CDM数据迁移以抽取-写入模式进行,CDM首先从源端抽取数据,然后将数据写入到目的端。在迁移文件到OBS时,迁移模式如图1所示。 图1 迁移文件到OBS 在这个过程中,CDM支持使用MD5检验文件一致性。 抽取时 该功能支持源端为OBS、HDFS、FTP、S
请求头中参数值长度超过512个字符时,何如处理? 以Rest Client算子为例。 问题现象 在配置作业算子参数时,在添加请求头中时,需要输入参数及参数值,如果该参数的参数值长度超过512个字符时,则不能继续输入,如下图所示。 图1 配置请求头参数 解决方法 配置作业节点的请求头参数。
迁移作业原理 数据迁移模型 CDM数据迁移时,简化的迁移模型如图1所示。 图1 CDM数据迁移模型 CDM通过数据迁移作业,将源端数据迁移到目的端数据源中。其中,主要运行逻辑如下: 数据迁移作业提交运行后,CDM会根据作业配置中的“抽取并发数”参数,将每个作业拆分为多个Task,即作业分片。
定义数据密级 为了方便对数据进行管理,在对数据进行操作前,需要您为数据定义密级,并对保密等级做相应的描述,例如明确涉密的范围。本章主要介绍如何定义数据密级并配置默认密级。 值得注意的是,数据密级、数据分类和识别规则,均为DataArts Studio实例级别配置,各工作空间之间数
作业开发 作业开发流程 新建作业 开发Pipeline作业 开发批处理单任务SQL作业 开发实时处理单任务MRS Flink SQL作业 开发实时处理单任务MRS Flink Jar作业 开发实时处理单任务DLI Spark作业 调度作业 提交版本 发布作业任务 (可选)管理作业
数据架构操作列表 云审计服务(Cloud Trace Service,简称CTS)为用户提供了云账户下资源的操作记录,可以帮您记录相关的操作事件,便于日后的查询、审计和回溯。 表1 支持云审计的关键操作列表 操作名称 资源类型 资源名称 事件名称 查看主题设计 DAYU_DS dsSubject
数据架构API 概览 信息架构接口 数据标准接口 数据源接口 码表管理接口 流程架构接口 数据标准模板接口 审批管理接口 主题管理接口 主题层级接口 目录管理 原子指标接口 衍生指标接口 复合指标接口 维度接口 限定接口 维度表接口 事实表接口 汇总表接口 业务指标接口 版本信息接口
月周期的作业依赖天周期的作业,为什么天周期作业还未跑完,月周期的作业已经开始运行? 可能原因 月周期的作业依赖天周期的作业,依赖的是上个月的天周期作业是否全部运行完成,周期调度依赖原理的理解有误导致的。 如下图,月周期的作业依赖天周期的作业。为什么在天周期的作业还未跑完,月周期的作业已经开始运行?
MD5校验文件一致性 CDM数据迁移以抽取-写入模式进行,CDM首先从源端抽取数据,然后将数据写入到目的端。在迁移文件到OBS时,迁移模式如图1所示。 图1 迁移文件到OBS 在这个过程中,CDM支持使用MD5检验文件一致性。 抽取时 该功能支持源端为OBS、HDFS、FTP、S
查看API访问日志 操作场景 支持专享版用户API调用日志的查询,包括请求路径,请求参数,请求响应结果等。 当前数据服务日志仅支持专享版。 配置云日志基础服务 为了能够在云日志服务上面看到数据服务API的日志,需要配置云日志服务。关于云日志服务的详细配置和操作方法,请参见《云日志服务用户指南》。
发现敏感数据 完成了敏感数据识别规则组定义后,就可以根据定义的规则来创建敏感数据识别任务,发现敏感数据,并将敏感数据同步到数据地图组件。 敏感数据发现任务运行后,为使该识别规则在静态脱敏任务中生效,必须在“敏感数据分布>手工修正”页面对任务中的识别规则进行“确认”,使规则状态变更为“有效”。
是否支持字段转换? 支持,CDM支持以下字段转换器: 脱敏 去前后空格 字符串反转 字符串替换 表达式转换 在创建表/文件迁移作业的字段映射界面,可新建字段转换器,如下图所示。 图1 新建字段转换器 脱敏 隐藏字符串中的关键信息,例如要将“12345678910”转换为“123****8910”,则配置如下:
查看日志时,系统提示“OBS日志文件不存在,请检查文件是否被删除或者没有OBS写入权限。”怎么办? 问题现象 查看数据开发的节点日志时,系统提示“OBS日志文件不存在,请检查文件是否被删除或者没有OBS写入权限”,如下图所示: 图1 提示信息 原因分析 数据开发的日志存储在OBS
基本概念 数据库、数据仓库、数据湖与华为智能数据湖方案 请参考数据库、数据仓库、数据湖与华为智能数据湖方案。 DataArts Studio实例 DataArts Studio实例是数据治理中心给用户提供的最小计算资源单位。数据治理中心以DataArts Studio实例的方式提
自然周期调度之上一周期依赖原理 自然周期调度的概念 自然周期调度作业的调度周期包括分钟、小时、天、周、月这五种周期,不同调度周期的作业,其允许配置的依赖作业调度周期总结如图1所示。 图1 上一周期作业依赖关系全景图 即作业A的调度依赖于作业B的上一调度周期,包含以下场景: 分钟依赖分钟
自然周期调度之同周期依赖原理 解释说明 即作业A依赖于作业B的相同调度周期的运行实例。周期单位包括分钟、小时、天、周、月这五种,不同调度周期的作业,其允许配置的依赖作业调度周期总结如图1所示。 图1 同周期作业依赖关系全景图 分钟依赖分钟 规则:分钟是最小调度粒度,没有自然分钟周
传统周期调度依赖和自然周期调度依赖对比 数据开发当前支持两种调度依赖策略:传统周期调度依赖和自然周期调度依赖。 传统周期调度依赖,只支持同周期或者大周期依赖于小周期,不支持小周期依赖于大周期。详细说明如下: 同周期依赖,依赖时间段范围为从当前批次时间往前推一个周期。 跨周期依赖,依赖时间段范围为上一个周期时间段内。