开天集成工作台 MSSI-基本概念:元模型概述

时间:2024-10-22 09:04:29

元模型概述

FabricMetamodelV2.0内核和扩展实体如图3所示。

图3 FabricMetamodelV2.0概览

FabricMetamodelV2.0内核中包括如下的一些实体:

  • 行政单元(AdministrationUnit):行政单元指按照各行业固有的行政管理结构来划分、具备行政管理职责的单位。如政府的省/市/区、企业的集团/分支机构、法人实体等。
  • 行政领域(AdministrationDomain):在企业组织范围内,行政领域指基于向外部和内部客户提供的商品或服务的主要子结构,如零售、物流、云计算服务等;在政府领域内,行政领域指政府各职能领域,如工商、公安、卫检等。
  • 用户(User):数据资产管理和运营用户旅程中的个人参与方,如数据管家、数据分析师、数据普查员等。
  • 空间(Space):用于描述数据分析师的工作空间,此空间为一个逻辑概念,空间中涵盖了“数据分析师团队、团队拥有的数据底座、有访问权限的数据资产、数据开发工具、数据应用”等关联概念。
  • 主题域分组(SubjectAreaGroup):公司顶层信息分类,通过数据视角体现公司最高层关注的业务领域。
  • 主题域(SubjectArea):互不重叠数据的高层面的分类,用于管理下一级的业务对象。
  • 业务对象(BusinessObject):业务领域重要的人、事、物,承载了业务运作和管理涉及的重要信息。
  • 逻辑数据实体(LogicalEntity):具有一定逻辑关系的数据属性的集合。
  • 属性(Attribute):描述业务对象的数据特征,是数据最基本的单元。
  • 数据标准(DataStandard):定义组织层面需共同遵守的属性层数据含义和业务规则,是组织层面对某个数据的共同理解,这些理解一旦确定下来,就应作为组织层面的标准在组织内被共同遵守。
  • 应用(Application):应用是数据资产运营枢纽中对IT系统的统称,包括文件应用、业务系统应用、企业应用、 数据仓库 应用等。
  • 数据平台实例(DataPlatformInstance):数据源是元数据的来源。包括以下几类来源:关系型数据库(比如MySQL、Oracle)、对象存储(比如华为云OBS)、企业应用(比如金碟ERP)、BI软件(比如四方伟业BI、帆软BI)、大数据存储(比如Hive、HDFS)、消息队列(比如kafka)、ETL工具(比如AWS Glue)、 时序数据库 (比如influx)等。数据源又称数据平台实例。
  • 数据集(DataSet):代表了数据的集合,通常指数据库中的表/视图、流处理系统中的流、 数据湖 系统中以文件或文件夹形式存在的数据集合等。
  • 数据集容器(Container):包括一组DataSet的逻辑库。
  • 数据集字段(SchemaField):数据集中的每一列字段对应一个数据集字段。

FabricMetamodelV2.0扩展中包括如下的一些实体:

  • 团队(Group):数据资产管理和运营用户旅程中的团队参与方。
  • 报表(Report):以特定格式展现数据的一种可视化报告,能直观地展现业务分析结果,用于支撑业务决策。
  • 报表分组(ReportGroup):对报表的分类信息。
  • 卡片(Card):报表由多个可视化组件组成,一个可视化组件称为卡片。

主要的实体联接的描述如下:

  • 兼容FabricMetamodelV1.0的信息架构管理的实体联接:
    • 信息架构L1-L5层元素间的实体联接:
      • “属性-被包含-逻辑数据实体”:描述信息架构中L5层属性和L4层逻辑实体的关系。
      • “逻辑数据实体-被包含-业务对象”:描述信息架构中L4层逻辑数据实体和L3层业务对象的关系。
      • “业务对象-被包含-主题域”:描述信息架构中L3层业务对象和L2层主题域的关系。
      • “主题域-被包含-主题域分组”:描述信息架构中L2层主题域和L1层主题域分组的关系。
    • 信息架构和用户之间的实体联接:
      • “主题域分组-关联于-团队”:描述的是信息架构委员会团队管理所有主题域分组、领域数据管家团队管理本领域主题域的场景。
      • “主题域分组-被拥有-用户”:描述的是数据Owner管理主题域分组的场景。
      • “主题域-被拥有-用户”:描述的是数据Owner作为主题域数据主人的场景。
      • “业务对象/逻辑数据实体-被管理-用户”:描述的是数据管家管理业务对象/逻辑数据实体的场景。
      • “业务对象/逻辑数据实体-被拥有-用户”:描述的是数据Owner管理业务对象/逻辑实体的场景。
    • 信息架构和数据集之间的实体联接:
      • “数据集-关联于-逻辑数据实体”:描述的是多个物理存在的数据集,关联到一个逻辑数据实体进行管理的场景。比如一张物理表在源业务系统、业务系统备库、数据湖、数据仓库中存在了多次,则其被注册到一个逻辑数据实体中。逻辑数据实体中的属性是从管理维度定义的最重要的数据资产属性,和数据集字段可能存在不完全一致的情况。
      • “数据集-关联于-业务对象”:此关系是在未定义“逻辑数据实体”时引入的,当前已经失效,将在FabricMetamodelV2.1中删除。
  • 兼容FabricMetamodelV1.0的数据普查的实体联接:
    • 数据普查L1-L5层元素间的实体联接:
      • “数据集-被包含-数据容器”:描述数据库的逻辑库(如Schema)包含多个数据集的场景。
      • “数据集-被包含-数据平台实例”:描述数据集存储在哪个数据平台实例的场景。
      • “数据平台实例-关联于-应用”:描述业务系统关联数据平台实例的场景。
      • “应用-关联于-行政领域”:描述此业务系统是哪一个业务领域建设的场景。
      • “行政领域-被包含-行政单元”:描述是业务领域是哪一级组织(如集团、分公司)的场景。
  • 兼容FabricMetamodelV1.0的RDBMS的实体联接:
    • “数据集字段-被包含-数据集”:描述的是数据集(物理表/视图)包括哪些字段的场景。
    • “数据集-被包含-数据集容器”:描述的是逻辑库中包括哪些数据集(物理表/视图)的场景。
    • “数据集-被包含-数据平台实例”:描述的是数据集(物理表/视图)实际存储在哪个数据平台实例的场景。
    • RDBMS元模型中CWM元模型中如下元素尚未兼容:
      • 唯一键
      • 主键
      • 外键
      • 存储过程
      • 索引/索引字段
      • 触发器
  • 分析师360中管理数据消费的实体联接:
    • “空间-被拥有-用户”:描述的是空间Owner拥有工作空间的场景,当前空间中成员信息没有保存在元模型中。
    • “数据集-被消费-报表”:描述的是物理表被BI报表应用所消费的场景。
    • “报表-被拥有-用户”:描述的是报表是由哪个数据分析师创建、开发和发布的场景。
    • “报表-被包含-报表分组”:描述的是BI报表进行分组管理的场景。
    • “报表分组-被包含-工作空间”:描述的是工作空间中由数据分析师开发了多个BI报表的场景。
  • 数据管家360中管理数据普查的实体联接:
    • “数据集-被拥有-用户”:描述的是数据Owner作为数据集数据主人的场景。
    • “数据集-被管理-用户”:描述的是数据管家作为数据集管理者的场景。
support.huaweicloud.com/usermanual-mssi/mssi_02_0013.html