DAYU实例
DAYU实例是 智能数据湖 运营平台给用户提供的最小计算资源单位。智能 数据湖 运营平台以DAYU实例的方式提供给用户,用户可以同时创建多个DAYU实例,并分别管理和访问每个DAYU实例。每个DAYU实例具有用户指定的基础计算资源,包含管理中心、规范设计、 数据集 成、数据开发、数据质量、数据资产和数据服务七个模块。用户可根据业务需要申请相应规格的DAYU实例。
工作空间
工作空间是从系统层面为管理者提供对使用DAYU的用户(成员)权限、资源、DAYU底层计算引擎配置的管理能力。
工作空间作为成员管理、角色和权限分配的基本单元,每个团队都可具有独立的工作空间。
您只有在加入工作空间并被分配权限后,才可具备管理中心、数据资产、数据质量、业务指标、数据规范、数据服务、数据开发、 数据迁移 和数据接入模块的系列操作权限。
成员和角色
成员是被授予工作空间访问或使用权限的云账号。在添加工作空间成员时,您需要同时为添加的成员设置相应的角色。
角色是一组操作权限的集合。不同的角色拥有不同的操作权限,把角色授予成员后,成员即具有了角色的所有权限。每位成员至少要拥有一个角色,并且可以同时拥有多种角色。
工作空间有四种角色,包括:管理员、开发者、运维者和访客。
数据资源及其应用过程中相关管控活动、绩效和风险管理的集合。
以数据搜索为核心,通过可视化方式,综合反映有关数据来源、数量、分布、标准、流向、关联关系、数据质量。让用户找到数据、读懂数据、消费数据,致力于为用户提供高效率的数据消费产品。
数据资产
由企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源。在企业中并非所有的数据都构成数据资产,数据资产是能够为企业产生价值的数据资源。
元数据
元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是关于数据的数据。元数据包括元数据实体和元数据元素。元数据元素是元数据的基本单元,若干个相关的元数据元素构成了元数据实体。
数据资产采集
支持创建自定义策略的采集任务,采集数据源中的技术元数据。
数据资产报告
数据资产总览与统计信息展示。
数据服务
数据服务是基于数据分发、发布的框架,将数据作为一种服务产品提供,满足客户的实时数据需求,能复用并符合企业和工业标准,兼顾数据共享和安全。
数据调研
基于现有业务数据、行业现状进行数据调查、需求梳理、业务调研,输出企业业务流程以及数据主题划分。
主题设计
通过分层架构表达对数据的分类和定义,帮助厘清数据资产,明确业务领域和业务对象的关联关系。
主题域分组
基于业务场景对主题域分组。
主题域
互不重叠数据的高层面的数据分类,用于管理其下一级的业务对象。
业务对象
指企业运作和管理中不可缺少的重要人、事、物信息。
流程设计
流程设计是针对流程的一个结构化的整体框架,描述了企业流程的分类、层级以及边界、范围、输入/输出关系等,反映了企业的商业模式及业务特点。
数据标准
数据标准用于描述公司层面需共同遵守的数据含义和业务规则。其描述了公司层面对某个数据的共同理解,这些理解一旦确定下来,就应作为企业层面的标准在企业内被共同遵守。
码表
通常只包括一系列允许的值和附加文本描述,与数据标准关联用于生成值域校验质量监控。
SDI
Source Data Integration(SDI)又称贴源数据层。SDI是源系统数据的简单落地。
DWI
Data Warehouse Integration(DWI)又称数据整合层。DWI整合多个源系统数据,源系统进来数据会有整合、清洗,基于三范式关系建模。
DWR
Data Warehouse Report(DWR)又称数据报告层。DWR基于多维模型,和DWI层数据粒度保持一致。
DM
Data Mart(DM)又称数据集市。DM面向展现层,数据有多级汇总。
关系建模
关系建模是用实体关系(Entity Relationship,ER)模型描述企业业务,它在范式理论上符合3NF,出发点是整合数据,将各个系统中的数据以整个企业角度按主题进行相似性组合和合并,并进行一致性处理,为数据分析决策服务,但是并不能直接用于分析决策。
维度建模
维度建模是从分析决策的需求出发构建多维模型,它主要是为分析需求服务,因此它重点关注用户如何更快速地完成需求分析,同时具有较好的大规模复杂查询的响应性能。
多维模型是由数字型度量值组成的一张事实表连接到一组包含描述属性的多张维度表,事实表与维度表通过主/外键实现关联。
在DAYU规范设计中,维度建模是以维度建模理论为基础,构建总线矩阵、抽象出事实和维度,构建维度模型和事实模型,同时对报表需求进行抽象整理出相关指标体系,构建出汇总模型。
指标
指标是衡量目标总体特征的统计数值,是能表征企业某一业务活动中业务状况的数值指示器。指标一般由指标名称和指标数值两部分组成,指标名称及其涵义体现了指标质的规定性和量的规定性两个方面的特点,指标数值反映了指标在具体时间、地点、条件下的数量表现。
度量
度量是用于衡量业务状况的可量化的数值表现,通常为数字,如:金额、数量、周期等。指标与度量的关系:度量是一个数值型数据,其本身不带有业务含义,只有将度量放在业务语境下,方能体现出业务含义,才能成为指标。
维度
维度是用于观察和分析业务数据的视角,支撑对数据汇聚、钻取、切片分析,用于SQL中的GROUP BY条件。多数维度具有层级结构,如:地理维度(其中包括国家、地区、省以及城市等级别的内容)、时间维度(其中包括年度、季度、月度等级别的内容)。
原子指标
原子指标中的度量和属性来源于多维模型中的维度表和事实表,与多维模型所属的业务对象保持一致,与多维模型中的最细数据粒度保持一致。原子指标中仅含有唯一度量,所含其它所有与该度量、该业务对象相关的属性,旨在用于支撑指标的敏捷自助消费。
衍生指标
衍生指标是原子指标通过添加口径/修饰词、维度卷积而成,口径/修饰词、维度均来源于原子指标中的属性。例如:促销员门店覆盖率。
复合指标
复合指标由一个或多个衍生指标叠加计算而成,其中的维度、口径/修饰词均继承于衍生指标(不能脱离衍生指标维度和口径/修饰词的范围,去产生新的维度和口径/修饰词)。
口径/修饰词
口径/修饰词是对业务场景限定抽象,用于度量范围的圈定,用于SQL中的WHERE条件。
数据质量规则
不符合业务实质、不满足数据应用要求的数据判断逻辑。
接入通道
租户创建的用于发送或者接收实时数据的逻辑单位,用以区分不同租户实时数据的集合。
分区
分区(Partition)是接入实时数据流的基本吞吐量单位,每个Partition提供1MB/秒数据输入和2MB/秒数据输出容量。一个分区最高可支持每秒1000个PUT记录。创建数据流时,您将指定所需的分区数量。
批量数据 迁移 集群
批量数据迁移给用户提供的最小资源单位,一个批量数据迁移集群运行在一个弹性 云服务器 之上,用户可以在集群中创建数据迁移作业,在云上和云下的同构/异构数据源之间批量迁移数据。
数据连接
定义访问数据实体存储(计算)空间所需的信息的集合,包括连接类型、名称和登录信息等。
解决方案定位于为用户提供便捷的、系统的方式管理作业,更好地实现业务需求和目标。每个解决方案可以包含一个或多个业务相关的作业,一个作业可以被多个解决方案复用。
作业(数据开发)
在数据开发中,作业由一个或多个节点组成,共同执行以完成对数据的一系列操作。
节点
节点用于定义对数据执行的操作。例如,使用“MRS Spark”节点可以实现在MRS中执行预先定义的Spark作业。
资源
用户可以上传自定义的代码或文本文件作为资源,并在节点运行时调用。
函数
函数可以作为脚本/作业参数的值,所有函数都以“$”符号开头,后面接函数名和参数序列。
表达式
数据开发作业中的节点参数可以使用表达式语言(Expression Language,简称EL),根据运行环境动态生成参数值。数据开发EL表达式使用简单的算术和逻辑计算,引用内嵌对象,包括作业对象和一些工具类对象。
环境变量
环境变量是在操作系统中一个具有特定名字的对象,它包含了一个或者多个应用程序所将使用到的信息。
补数据
手工触发周期方式调度的作业任务,生成过去某时间段内的实例。