数据治理中心基本概念介绍
常用的基本概念
DataArts Studio实例:是数据治理中心给用户提供的最小计算资源单位。数据治理中心以DataArts Studio实例的方式提供给用户,用户可以同时创建多个DataArts Studio实例,并分别管理和访问每个DataArts Studio实例。
工作空间:是从系统层面为管理者提供对使用DataArts Studio的用户(成员)权限、资源、DataArts Studio底层计算引擎配置的管理能力。工作空间作为成员管理、角色和权限分配的基本单元,每个团队都可具有独立的工作空间。您只有在加入工作空间并被分配权限后,才可具备各个模块的系列操作权限。
成员与角色:成员是被授予工作空间访问或使用权限的华为云帐号。在添加工作空间成员时,您需要同时为添加的成员设置相应的角色。
角色是一组操作权限的集合。不同的角色拥有不同的操作权限,把角色授予成员后,成员即具有了角色的所有权限。每位成员至少要拥有一个角色,并且可以同时拥有多种角色。
数据集成集群:一个数据集成集群运行在一个弹性云服务器之上,用户可以在集群中创建数据迁移作业,在云上和云下的同构/异构数据源之间批量迁移数据。
数据源:即数据的来源,本质是讲存储或处理数据的媒介,比如:关系型数据库、数据仓库、数据湖等。每一种数据源不同,其数据的存储、传输、处理和应用的模式、场景、技术和工具也不相同。
源数据:源数据强调数据状态是“创建”之后的“原始状态”,也就是没有被加工处理的数据。在数据管理的过程中,源数据一般是指直接来自源文件(业务系统数据库、线下文件、IoT等)的数据,或者直接拷贝源文件的“副本数据”。
数据连接:定义访问数据实体存储(计算)空间所需的信息的集合,包括连接类型、名称和登录信息等。
并发数:并发数是数据集成作业中,可以从源端并行读取的最大线程数。
作业:在数据开发中,作业由一个或多个节点组成,共同执行以完成对数据的一系列操作。
节点:节点用于定义对数据执行的操作。例如,使用“MRS Spark”节点可以实现在MRS中执行预先定义的Spark作业。
表达式:数据开发作业中的节点参数可以使用表达式语言(Expression Language,简称EL),根据运行环境动态生成参数值。数据开发 EL表达式使用简单的算术和逻辑计算,引用内嵌对象,包括作业对象和一些工具类对象。
补数据:手工触发周期方式调度的作业任务,生成过去某时间段内的实例。