数据治理中心基本概念介绍

常用的基本概念

DataArts Studio实例:是数据治理中心给用户提供的最小计算资源单位。数据治理中心以DataArts Studio实例的方式提供给用户,用户可以同时创建多个DataArts Studio实例,并分别管理和访问每个DataArts Studio实例。

工作空间:是从系统层面为管理者提供对使用DataArts Studio的用户(成员)权限、资源、DataArts Studio底层计算引擎配置的管理能力。工作空间作为成员管理、角色和权限分配的基本单元,每个团队都可具有独立的工作空间。您只有在加入工作空间并被分配权限后,才可具备各个模块的系列操作权限。

成员与角色:成员是被授予工作空间访问或使用权限的华为云帐号。在添加工作空间成员时,您需要同时为添加的成员设置相应的角色。

角色是一组操作权限的集合。不同的角色拥有不同的操作权限,把角色授予成员后,成员即具有了角色的所有权限。每位成员至少要拥有一个角色,并且可以同时拥有多种角色。

数据集成集群:一个数据集成集群运行在一个弹性云服务器之上,用户可以在集群中创建数据迁移作业,在云上和云下的同构/异构数据源之间批量迁移数据。

数据源:即数据的来源,本质是讲存储或处理数据的媒介,比如:关系型数据库、数据仓库、数据湖等。每一种数据源不同,其数据的存储、传输、处理和应用的模式、场景、技术和工具也不相同。

源数据:源数据强调数据状态是“创建”之后的“原始状态”,也就是没有被加工处理的数据。在数据管理的过程中,源数据一般是指直接来自源文件(业务系统数据库、线下文件、IoT等)的数据,或者直接拷贝源文件的“副本数据”。

数据连接:定义访问数据实体存储(计算)空间所需的信息的集合,包括连接类型、名称和登录信息等。

并发数:并发数是数据集成作业中,可以从源端并行读取的最大线程数。

作业:在数据开发中,作业由一个或多个节点组成,共同执行以完成对数据的一系列操作。

节点:节点用于定义对数据执行的操作。例如,使用“MRS Spark”节点可以实现在MRS中执行预先定义的Spark作业。

表达式:数据开发作业中的节点参数可以使用表达式语言(Expression Language,简称EL),根据运行环境动态生成参数值。数据开发 EL表达式使用简单的算术和逻辑计算,引用内嵌对象,包括作业对象和一些工具类对象。

补数据:手工触发周期方式调度的作业任务,生成过去某时间段内的实例。

  • 一站式数据运营平台

  • 全链路数据治理管控

  • 丰富的数据开发类型

  • 统一调度和运维

  • 可复用行业知识库

  • 统一数据资产管理

  • 数据运营全场景可视

  • 全方位的安全保障

数据治理中心-数据开发能力-脚本介绍及使用
数据治理中心-数据开发能力-脚本介绍及使用
  • 开发SQL脚本

    对SQL脚本进行在线开发、调试和执行,开发完成的脚本也可以在作业中执行调度。

  • AppBazaar

    对Shell脚本进行在线开发、调试和执行,开发完成的脚本也可以在作业中执行调度。

  • 开发Python脚本

    对Python脚本进行在线开发、调试和执行,开发完成的脚本也可以在作业中执行调度。

  • 新建脚本

    数据开发模块的脚本开发功能支持在线编辑、调试、执行脚本,开发脚本前请先新建脚本。

数据治理中心-数据开发能力-作业节点介绍及配置


/

常见问题