检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据血缘方案简介 什么是数据血缘 大数据时代,数据爆发性增长,海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息,通过联姻融合、转换变换、流转流通,又生成新的数据,汇聚成数据的海洋。 数据的产生、加工融合、流转流通,到最终消亡,数据之间自然会形成一种关系。我们借鉴人类社会中
逆向数据库(关系建模) 通过逆向数据库,您可以将其他数据源的数据库中的表导入到指定的模型中。 前提条件 在逆向数据库之前,请先在DataArts Studio数据目录模块中对数据库进行元数据采集,以便同步数据目录时可以同步成功,否则同步数据目录将执行失败。有关数据目录元数据采集的具体操作,请参见配置元数据采集任务。
备份管理 通过备份功能,您可定时备份系统中的所有作业、脚本、资源和环境变量。 通过还原功能,您可还原已备份的资产,包含作业、脚本、资源和环境变量。 约束限制 该功能依赖于OBS服务。 当前备份内容不会自动老化删除,您需要定期手动清理备份文件。 前提条件 已开通对象存储服务,并在OBS中创建文件夹。
数据架构示例 DataArts Studio数据架构以关系建模、维度建模理论支撑,实现规范化、可视化、标准化数据模型开发,定位于数据治理流程设计落地阶段,输出成果用于指导开发人员实践落地数据治理方法论。 本章节操作场景如下: 对MRS Hive数据湖中的出租车出行数据进行数据模型设计。
创建并管理工作空间 购买DataArts Studio实例的用户,系统将默认为其创建一个默认的工作空间“default”,并赋予该用户为管理员角色。您可以使用默认的工作空间,也可以参考本章节的内容创建一个新的工作空间。 DataArts Studio实例内的工作空间作为成员管理、
cdm.cn-north-9.myhuaweicloud.com HTTPS 华东-上海一 cn-east-3 cdm.cn-east-3.myhuaweicloud.com HTTPS 华东-上海二 cn-east-2 cdm.cn-east-2.myhuaweicloud.com
查看数据血缘 首先在数据目录组件完成元数据采集任务,当数据开发作业满足自动血缘解析要求或已手动配置血缘,然后成功完成作业调度后,则可以在数据目录模块可视化查看数据血缘关系。 约束限制 数据血缘关系更新依赖于作业调度,数据血缘关系是基于最新的作业调度实例产生的。 对于同一版本的数据
华为数据治理思考 华为在发展中也遇到了如下的数据问题: 数据管理责任不清晰,造成数据问题无人决策解决; 数据多源头,造成数据不一致,不可信; 数据大量搬家造成IT重复投资; 数据无定义造成难于理解、难于使用; 各部门发布报告,统计口径不一致,困扰业务决策; 数据形态多样化,数据量迅猛增长,数据处理逻辑复杂,投资大;
数据集成概述 DataArts Studio数据集成是一种高效、易用的数据集成服务,围绕大数据迁移上云和智能数据湖解决方案,提供了简单易用的迁移能力和多种数据源到数据湖的集成能力,降低了客户数据源迁移和集成的复杂性,有效的提高您数据迁移和集成的效率。 数据集成即云数据迁移(Cloud
足多种灵活性的需求,例如多对一、一对多,动态增减同步表,不同库表名之间同步数据等。 图1 实时同步原理 实时处理集成作业功能当前在北京四、上海一、广州已上线(其他region后续会逐步放开,敬请期待!),但需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。 功能概述
据服务共享版即开即用但仅限于存量用户调测使用,数据服务专享版需要通过数据服务专享集群增量包创建集群后使用。 数据服务共享版当前仅限于华东-上海一、华北-北京四、华南-广州的存量用户调测使用,受限于服务稳定性和生命周期策略,不建议用于生产环境。 DataArts Studio实例中
数据服务简介 DataArts Studio数据服务旨在为企业搭建统一的数据服务总线,帮助企业统一管理对内对外的API服务。数据服务为您提供快速将数据表生成数据API的能力,涵盖API发布、管理、运维的全生命周期管理,帮助您简单、快速、低成本、低风险地实现微服务聚合、前后端分离、
· 通过敏感数据分级分类管理、敏感数据动态脱敏策略能力,在数据集成、数据开发、数据目录和数据服务场景下,帮助用户做好敏感数据治理。 上海一,上海二,广州,乌兰察布一、北京四已发布,其他局点陆续上线中 数据安全 统一权限治理 统一权限治理是数据安全提供的MRS、DWS、DLI等统
享版即开即用但仅限于存量用户调测使用,数据服务专享版需要通过数据服务专享集群增量包创建集群后使用。 说明: 数据服务共享版当前仅限于华东-上海一、华北-北京四、华南-广州的存量用户调测使用,受限于服务稳定性和生命周期策略,不建议用于生产环境。 DataArts Studio实例中
执行SQL语句失败,系统提示“Failed to create ThriftService instance, please check the cluster has available resources and check YARN or Spark driver's logs
终端订阅管理 操作场景 系统支持按照责任人配置终端订阅信息(短信、邮件、电话),配置好订阅信息后,通过通知管理功能配置作业通知任务,当作业运行异常或成功时向已配置的责任人发送通知。 前提条件 已开通消息通知服务并配置主题。按照责任人配置订阅信息前,请确保已在工作空间配置了作业告警通知主题。
主题设计 主题设计是通过分层架构表达对数据的分类和定义,帮助厘清数据资产,明确业务领域和业务对象的关联关系。 您可以通过以下两种方式进行主题设计: 新建主题并发布 手动新建并发布主题。 导入主题设计信息 如果主题信息比较复杂,建议采用导入方式批量导入主题信息。 您可以下载系统提供
数据架构概述 模型设计方法概述 根据业务需求抽取信息的主要特征,模拟和抽象出一个能够反映业务信息(对象)之间关联关系的模型,即数据模型。数据模型也是可视化的展现企业内部信息如何组织的蓝图。数据模型应满足三方面要求:能比较真实地模拟业务(场景);容易被人所理解;便于在IT系统中实现。
配置OBS桶 脚本、作业或节点的历史运行记录依赖于OBS桶,如果未配置测试运行历史OBS桶,则无法查看历史运行的详细信息。请参考本节操作配置OBS桶。 约束限制 OBS路径仅支持OBS桶,不支持并行文件系统。 配置方法 参考访问DataArts Studio实例控制台,登录DataArts
创建数据连接需要注意哪些事项? RDS数据连接方式依赖于OBS。如果没有与DataArts Studio同区域的OBS,则不支持RDS数据连接。 主机连接当前仅支持Linux系统主机。 当所连接的数据湖发生变化(如MRS集群扩容等情况)时,您需要重新编辑并保存该连接。 数据连接中