正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
步骤6:数据开发处理 DataArts Studio数据开发模块可管理多种大数据服务,提供一站式的大数据开发环境、全托管的大数据调度能力,极大降低用户使用大数据的门槛,帮助您快速构建大数据处理中心。 使用DataArts Studio数据开发,用户可进行数据管理、数据集成、脚本开
步骤2:数据集成入湖 OBS数据迁移到DWS 登录CDM管理控制台。单击左侧导航上的“集群管理”,进入集群管理界面。 或参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。在DataArts Studio控制台首页,选择对应工作空间的“数据集成”模块,进入CDM首页。
步骤4:元数据采集 为了在DataArts Studio平台中对迁移到云上的原始数据进行管理和监控,我们必须先在DataArts Studio数据目录模块中对SDI贴源层数据进行元数据采集并监控。 采集并监控元数据 在DataArts Studio控制台首页,选择对应工作空间的“数据目录”模块,进入数据目录页面。
步骤7:数据质量监控 数据质量监控DQC(Data Quality Control)模块是对数据库里的数据质量进行质量管理的工具。您可从完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析。 在DataArts Studio数据质量模块中,可以对业务指标和数据质量进行监控。
步骤8:数据资产查看 在DataArts Studio数据目录模块中,您可以查看数据地图,详情请参见数据目录章节。数据地图包含业务资产和技术资产,业务资产就是指逻辑实体和业务对象,技术资产就是指数据连接、数据库对象等。 本章节介绍如何在DataArts Studio数据目录中查看
步骤3:数据集成入湖 本章节将介绍如何使用DataArts Studio数据集成将源数据批量迁移到云上。 创建集群 批量数据迁移集群提供数据上云和数据入湖的集成能力,全向导式配置和管理,支持单表、整库、增量、周期性数据集成。DataArts Studio基础包中已经包含一个数据集
当前系统支持“新建目录”和“同步主题为目录”两种方式: 选择“新建目录”时,直接在目录处单击,输入目录名称,即可完成目录新建。直接新建目录的最大深度拓展为7层。 图1 新建目录 选择“同步主题为目录”时,在目录处单击,即可将数据架构处的主题同步到目录中(仅支持同步“已发布”状态的主题)
查看表权限的拥有者(表权限视图) 数据安全支持权限清单查看,通过表名展示当前实例下拥有表权限的工作空间用户、用户组和角色(包含空间权限集、权限集和角色)。 约束与限制 表-角色页签暂不支持展示存算分离MRS Hive的URL权限策略。 当前暂不支持在表权限视图页面直接对权限进行配置、回收。
数据集市 数据集市,也称为DM模型。是汇总表的统称。汇总逻辑表是由一个特定的分析对象(如会员)及其相关的统计指标组成的。组成一个汇总逻辑表的统计指标都具有相同的统计粒度(如会员),汇总逻辑表面向用户提供了以统计粒度(如会员)为主题的所有统计数据(如会员主题集市)。 汇总表分为“手
、溪流和其他来源,并且是原始数据。 表2 数据湖与数据仓库的对比 维度 数据湖 数据仓库 应用场景 可以探索性分析所有类型的数据,包括机器学习、数据发现、特征分析、预测等 通过历史的结构化数据进行数据分析 使用成本 起步成本低,后期成本较高 起步成本高,后期成本较低 数据质量 包
资产搜索(邀测) 功能介绍 资产搜索,该接口功能处于邀测阶段,后续将随功能公测将逐步开放。 调用方法 请参见如何调用API。 URI POST /v3/{project_id}/datamap/entities/search 表1 路径参数 参数 是否必选 参数类型 描述 project_id
创建数据集成作业 本章节将介绍如何创建DataArts Studio数据集成作业。 本例中,需要创建如下三类集成作业: OBS到MySQL迁移作业:为方便演示,需要将OBS中的CSV格式的样例数据导入到MySQL数据库中。 MySQL到OBS迁移作业:正式业务流程中,需要将MyS
资产详情(邀测) 功能介绍 资产详情接口,该接口功能处于邀测阶段,后续将随功能公测将逐步开放。 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/datamap/entities/guid/{guid} 表1 路径参数 参数 是否必选 参数类型 描述
资产血缘(邀测) 功能介绍 资产血缘接口,该接口功能处于邀测阶段,后续将随功能公测将逐步开放。 调用方法 请参见如何调用API。 URI GET /v2/{project_id}/datamap/lineage/guid/{guid} 表1 路径参数 参数 是否必选 参数类型 描述
操作环境与数据准备 操作环境准备 如果您是第一次使用DataArts Studio,请参考购买并配置DataArts Studio章节完成注册华为账号、购买DataArts Studio实例(DataArts Studio企业版)、创建工作空间等一系列操作。然后进入到对应的工作空间,即可开始使用DataArts
批量血缘(邀测) 功能介绍 批量血缘接口,一次性获取所有作业算子的血缘。该接口功能处于邀测阶段,后续将随功能公测将逐步开放。 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/datamap/lineage/bulk 表1 路径参数 参数 是否必选
产出信息(邀测) 功能介绍 查询表相关的作业算子运行实例信息,该接口功能处于邀测阶段,后续将随功能公测将逐步开放。 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/datamap/node/{task_id}/instances 表1 路径参数
开发并调度Import GES作业 本章节介绍通过数据开发调用数据集成作业,将MySQL原始数据定期同步到OBS和MRS Hive中,并标准化为GES点/边数据集。然后基于标准化点/边数据集,自动生成图的元数据,实现最终将图数据(点数据集、边数据集和元数据)定期导入到GES服务中。
创建或修改资产(邀测) 功能介绍 创建或修改资产,该接口功能处于邀测阶段,后续将随功能公测将逐步开放。 调用方法 请参见如何调用API。 URI POST /v1/{project_id}/datamap/entities 表1 路径参数 参数 是否必选 参数类型 描述 project_id
查看数据资产 通过数据目录可以对各类资产进行搜索、过滤、查看详情等操作。 业务资产来自于数据架构组件中定义并发布过的逻辑实体与数据表。 技术资产中的数据连接来源于管理中心的数据连接,库表列等来源于数据目录的元数据采集任务。 指标资产来自于数据架构组件中定义并发布过的业务指标。 约束限制