检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
入门实践 当您参考购买并配置DataArts Studio章节完成注册华为账号、购买DataArts Studio实例(DataArts Studio企业版)、创建工作空间等一系列操作后,可以根据自身的业务需求使用DataArts Studio提供的一系列常用实践。 表1 常用最佳实践
数据架构概述 模型设计方法概述 根据业务需求抽取信息的主要特征,模拟和抽象出一个能够反映业务信息(对象)之间关联关系的模型,即数据模型。数据模型也是可视化的展现企业内部信息如何组织的蓝图。数据模型应满足三方面要求:能比较真实地模拟业务(场景);容易被人所理解;便于在IT系统中实现。
新建数据质量规则 数据质量支持对离线数据的监控,质量规则是数据质量的核心。DataArts Studio系统内置的模板规则共计34种,分为库级规则、表级规则、字段级规则和跨字段级规则、跨源级规则等规则类型,如表1所示。 表1 系统内置的规则模板一览表 规则类型 维度 模板名称 适用引擎
数据架构示例 DataArts Studio数据架构以关系建模、维度建模理论支撑,实现规范化、可视化、标准化数据模型开发,定位于数据治理流程设计落地阶段,输出成果用于指导开发人员实践落地数据治理方法论。 本章节操作场景如下: 对MRS Hive数据湖中的出租车出行数据进行数据模型设计。
开发Python脚本 数据开发支持对Python脚本进行在线开发、调试和执行,开发完成的脚本可以在作业中调度运行(请参见开发Pipeline作业)。 Python脚本开发的样例教程请参见开发一个Python脚本。 前提条件 已新增Python脚本,请参见新建脚本。 已新建主机连接
MySQL数据迁移到DWS 操作场景 CDM支持表到表的迁移,本章节以MySQL-->DWS为例,介绍如何通过CDM将表数据迁移到表中。流程如下: 创建CDM集群并绑定EIP 创建MySQL连接 创建DWS连接 创建迁移作业 前提条件 已获取DWS数据库的IP地址、端口、数据库名
开发Shell脚本 数据开发支持对Shell脚本进行在线开发、调试和执行,开发完成的脚本可以在作业中调度运行(请参见开发Pipeline作业)。 前提条件 已新增Shell脚本,请参见新建脚本。 已新建主机连接,该Linux主机用于执行Shell脚本,请参见主机连接参数说明。 连
通过公网连通网络 本章节主要为您介绍数据库部署在其他云场景下,通过公网打通网络的方案。 图1 网络示意图 约束限制 资源组不具有公网网段,只能通过公网NAT转换成固定的弹性公网IP访问公网,且该IP不能与数据源公网IP重复。 前提条件 已购买资源组,详情请参见购买数据集成资源组。
通过公网连通网络 在配置实时同步任务前,您需要确保源端和目的端的数据库与运行实时同步任务的实时计算资源组之间网络连通,您可以根据数据库所在网络环境,选择合适的网络解决方案来实现网络连通。 本章节主要为您介绍数据库部署在本地IDC场景下,通过公网打通网络的方案。 图1 网络示意图 约束限制
步骤5:数据架构设计 DataArts Studio数据架构以关系建模、维度建模理论支撑,实现规范化、可视化、标准化数据模型开发,定位于数据治理流程设计落地阶段,输出成果用于指导开发人员实践落地数据治理方法论。 DataArts Studio数据架构建议的数据分层如下: SDI (Source
新建衍生指标 衍生指标是原子指标通过添加限定、维度卷积而成,限定、维度均来源于原子指标中的属性。发布衍生指标时,会自动生成一张汇总表,可在“汇总表-自动汇聚”下查看。 衍生指标=原子指标+统计维度+时间限定+通用限定。 原子指标:明确统计口径,即计算逻辑。 统计维度:用于观察和分
业务指标 经过数据调研和需求分析之后,您需要根据需求落地指标。指标是衡量目标总体特征的统计数值,是能表征企业某一业务活动中业务状况的数值指示器。指标一般由指标名称和指标数值两部分组成,指标名称及其涵义体现了指标质的规定性和量的规定性两个方面的特点,指标数值反映了指标在具体时间、地点、条件下的数量表现。
创建简单模式工作空间 购买DataArts Studio实例的用户,系统将默认为其创建一个默认的工作空间“default”,并赋予该用户为管理员角色。您可以使用默认的工作空间,也可以参考本章节的内容创建一个新的工作空间。 DataArts Studio实例内的工作空间作为成员管理
指标定义 经过数据调研和需求分析之后,您需要根据需求落地指标。指标是衡量目标总体特征的统计数值,是能表征企业某一业务活动中业务状况的数值指示器。指标一般由指标名称和所属流程两部分组成,指标名称及其涵义体现了指标质的规定性和量的规定性两个方面的特点,指标数值反映了指标在具体时间、地点、条件下的数量表现。
管理脱敏算法 为了方便对数据进行脱敏,在创建脱敏策略前,需要您准备好脱敏算法。当前系统已内置20+脱敏算法,如果内置算法可以满足您的需求,您需要提前配置对应算法参数;否则,您可以新建脱敏算法。 本章主要介绍内置脱敏算法,和如何新建脱敏算法。 约束与限制 新建随机脱敏或字符替换类型
配置空间权限集 在数据访问权限管理的实际场景下,通常会有一级部门、二级部门、三级部门等多级权限的划分。为此,数据安全组件提供了自上而下分层式的数据权限管理方式。您可以通过空间权限集配置工作空间内的最大权限,在此基础上,将其向下拆分出新的子权限集,提供进一步的细分权限管理。 空间权限集作为DataArts
实例监控 作业每次运行,都会对应产生一次作业实例记录。在数据开发模块控制台的左侧导航栏,选择 “运维调度”,进入实例监控列表页面,用户可以在该页面中查看作业的实例信息,并根据需要对实例进行更多操作。 实例监控支持从“作业名称”、“创建人”、“责任人”、“CDM作业”、“节点类型”
调度作业 对已编排好的作业设置调度方式。 如果您的作业是批处理作业,您可以配置作业级别的调度任务,即以作业为一个整体进行调度,支持单次调度、周期调度、事件驱动调度三种调度方式。具体请参见配置作业调度任务(批处理作业)。 如果您的作业是实时处理作业,您可以配置节点级别的调度任务,即