检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数仓规划 数仓规划,目前系统默认的数仓分层包含SDI、DWI、DWR、DM(Data Mart)等4层,支持用户自定义数仓分层。数仓规划对数仓分层以及数仓模型进行统一管理。 关系建模下包含SDI层和DWI层两层模型,物理模型归属于两层模型之一。 SDI:Source Data I
配置元数据采集任务 本章主要介绍如何通过配置元数据采集策略新建采集任务,不同类型的数据源对应的采集策略不尽相同。元数据管理依据采集任务的配置策略,采集对应的技术元数据信息。 约束与限制 当元数据采集任务未指定采集范围时,默认采集该数据连接下的所有数据表/文件。采集任务运行完成后,
数据安全概述 数据安全以数据为中心,基于数据动态流动场景,构建全链路数据湖安全的解决方案,全方位保障数据湖安全,以此满足不同角色(如数据开发工程师,数据安全管理员,数据安全审计员和数据安全运营人员)对数据安全和数据治理的诉求。 图1 DataArts Studio数据安全框架 资
复制名称和重命名作业 您可以通过复制名称功能复制当前作业名称,通过重命名功能修改当前作业名称。 前提条件 已完成作业开发。如何开发作业,请参见开发Pipeline作业。 复制名称 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts
复制作业 本章节主要介绍如何复制一份作业。 前提条件 已完成作业开发。如何开发作业,请参见开发Pipeline作业。 操作步骤 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts Studio控制台首页,选择对应工
管理资源 用户可以通过资源管理功能,上传自定义代码或文本文件作为资源,在节点运行时调用。可调用资源的节点包含DLI Spark、MRS Spark、MRS MapReduce和DLI Flink Job。 创建资源后,配置资源关联的文件。在作业中可以直接引用资源。当资源文件变更,
复制脚本 本章节主要介绍如何复制一个脚本。 前提条件 已完成脚本开发,请参见开发脚本。 操作步骤 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。
诊断数据安全风险 数据安全诊断能够对数据安全能力进行全面诊断,并根据诊断结果,给出修复建议及解决方案。帮助您快速建立起基本数据安全体系,保障数据使用过程的安全可靠。 约束与限制 当前仅支持MRS数据源的安全诊断能力。 安全诊断的扫描任务超时时间为1小时。 数据权限控制诊断项,空间
新建实时处理集成作业 前提条件 作业在每个工作空间的最大配额为10000,请确保当前作业的数量未达到最大配额。 操作步骤 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。
新建数据质量作业 质量作业可将创建的规则应用到建好的表中进行质量监控。 配置流程 在DataArts Studio控制台首页,选择对应工作空间的“数据质量”模块,进入数据质量页面。 (可选)选择“数据质量监控 > 质量作业”,新建目录。如果已存在可用的目录,可以不用新建目录。注意
处理技术,使用CDM迁移数据的优势如表1所示。 表1 CDM优势 优势项 用户自行开发 CDM 易使用 自行准备服务器资源,安装配置必要的软件并进行配置,等待时间长。 程序在读写两端会根据数据源类型,使用不同的访问接口,一般是数据源提供的对外接口,例如JDBC、原生API等,因此
与text类型作用相同,为长度可变的非Unicode数据。 不支持(String) 不支持(String) 不支持 image 长度可变的二进制数据,用于存储照片、目录图片或者图画。 不支持(String) 不支持(String) 不支持 binary 长度为n个字节的固定长度二进制数据,其中n是从1~8000的值。
管理动态脱敏策略 在数据安全组件创建动态脱敏策略后,系统会将动态脱敏策略同步到数据源服务,由数据源对数据列按照指定规则进行动态脱敏。当策略中指定的用户和用户组在访问敏感数据时,系统会直接返回由数据源动态脱敏后的数据,保护敏感数据不被泄露。 值得注意的是,动态脱敏策略为DataArts
新建离线处理集成作业 约束限制 离线处理集成作业不支持在企业模式下运行。 离线处理集成作业功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。 操作步骤 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts
新建作业 作业由一个或多个节点组成,共同执行以完成对数据的一系列操作。开发作业前请先新建作业。 前提条件 作业在每个工作空间的最大配额为10000,作业目录最多5000个,目录层级最多为10层。请确保当前数量未达到最大配额。 新建普通目录 如果已存在可用的目录,则可以跳过当前操作。
新建维度 维度建模包含维度、维度表和事实表三个部分。 维度是用于观察和分析业务数据的视角,支撑对数据汇聚、钻取、切片分析,用于SQL中的GROUP BY条件。维度多数具有层级结构,如:地理维度(其中包括国家、地区、省以及城市等级别的内容)、时间维度(其中包括年度、季度、月度等级别的内容)。
新建事实表 归属于某个业务过程的事实逻辑表,可以丰富具体业务过程所对应事务的详细信息。创建事实逻辑表即完成公共的事务明细数据沉淀,从而便于提取业务中事务相关的明细数据。 新建事实表并发布 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。
配置资源权限 本章主要介绍如何通过资源权限创建权限策略到Ranger组件,实现MRS资源权限控制,从而降低企业数据信息安全风险。 当前支持创建的权限策略如下: 创建HDFS权限策略 创建Hive访问权限策略 创建Hive脱敏权限策略 创建Hive行级过滤器权限策略 创建HBase权限策略
开发批处理单任务SQL作业 对已新建的作业进行开发和配置。 开发单任务模式的批处理作业,请您参考开发SQL脚本、配置作业参数、质量监控、数据表、调测并保存作业和下载或转储脚本执行结果章节。 前提条件 已创建作业,详情请参见新建作业。 当前用户已锁定该作业,否则需要通过“抢锁”锁定
管控敏感数据 数据安全支持对数据地图资产按照密级进行分级管控,控制不同用户对元数据的访问权限。通过敏感数据管控为指定用户/用户组配置指定密级后,则用户/用户组在数据预览时仅能访问资产密级小于等于指定密级的字段。 值得注意的是,密级权限管控策略为DataArts Studio实例级