数据目录-华为云

数据治理中心 DATAARTS STUDIO-数据血缘方案简介:什么是数据血缘

什么是数据血缘大数据时代，数据爆发性增长，海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息，通过联姻融合、转换变换、流转流通，又生成新的数据，汇聚成数据的海洋。数据的产生、加工融合、流转流通，到最终消亡，数据之间自然会形成一种关系。我们借鉴人类社会中类似的一种关系来表达数据之间的这种关系，称之为数据的血缘关系。与人类社会中的血缘关系不同，数据的血缘关系还包含了一些特有的特征：归属性：一般来说，特定的数据归属特定的组织或者个人，数据具有归属性。多源性：同一个数据可以有多个来源（多个父亲）。一个数据可以是多个数据经过加工而生成的，而且这种加工过程可以是多个。可追溯性：数据的血缘关系，体现了数据的生命周期，体现了数据从产生到消亡的整个过程，具备可追溯性。层次性：数据的血缘关系是有层次的。对数据的分类、归纳、总结等对数据进行的描述信息又形成了新的数据，不同程度的描述信息形成了数据的层次。 DataArts Studio 生成的血缘关系图如图1所示，为数据表对象，为作业节点对象，通过对象和箭头的编排表示血缘信息。从血缘关系图中可以看到，wk_02表数据是由wk_01表数据经过hive_1作业节点加工而生成的，wk_02表数据经由hive_2作业节点加工又分别生成了wk_03、wk_04和wk_05的表数据。图1 数据血缘关系示例

数据治理中心 DATAARTS STUDIO 通过数据目录查看数据血缘关系

数据治理中心 DATAARTS STUDIO-数据血缘方案简介:DataArts Studio数据血缘实现方案

DataArts Studio数据血缘实现方案数据血缘的产生： DataArts Studio数据血缘解析方案包含自动分析血缘和手动配置血缘两种方式。一般推荐使用自动血缘解析的方式，无需手动配置即可生成血缘关系，在不支持自动血缘解析的场景下，再手动配置血缘关系。自动血缘解析，是由系统解析数据开发作业中的数据处理和数据迁移类型节点后自动产生的，无需进行手动配置。支持自动血缘解析的节点类型和场景请参见自动血缘解析。手动配置血缘，是在数据开发作业节点中，自定义血缘关系的输入表和输出表。注意手动配置血缘时，此节点的自动血缘解析将不生效。支持手动配置血缘的节点类型请参见手动配置血缘。数据血缘的展示：首先在数据目录组件完成元数据采集任务，当数据开发作业满足自动血缘解析要求或已手动配置血缘，然后成功完成作业调度后，则可以在数据目录模块可视化查看数据血缘关系。

数据治理中心 DATAARTS STUDIO 通过数据目录查看数据血缘关系

数据治理中心 DATAARTS STUDIO-配置增量元数据采集任务:场景二：更新数据目录中的元数据，添加新元数据

场景二：更新数据目录中的元数据，添加新元数据用户的数据库中新增了数据表，采集数据源中指定的所有表。例如新增table4的情况下：采集前的数据表元数据：table1，table2，table3 采集后的数据表元数据：table1，table2，table3，table4 按照如下配置，采集任务会采集default下所有的表（table1-table4）。进入DataArts Studio控制台首页的数据目录模块。单击左侧导航的“任务管理”，进入任务管理页面。在任务管理页面单击“新建”，新建一个元数据采集任务。配置任务信息，如下图所示。图3 配置任务信息单击“下一步”，配置调度属性如下图所示。图4 配置调度属性单击“提交”，完成采集任务的创建。单击任务管理列表中的“运行”或“启动调度”，跳转到任务监控页面并查看任务状态。

数据治理中心 DATAARTS STUDIO 数据目录典型场景教程

数据治理中心 DATAARTS STUDIO-配置增量元数据采集任务:场景一：仅添加新元数据

场景一：仅添加新元数据用户的数据库中新增的数据表，采集任务仅采集新增的表。例如新增table4的情况下：采集前的数据表元数据：table1，table2，table3 采集后的数据表元数据：table1，table2，table3，table4 按照下面的配置，采集任务仅会采集table4。（前提：table1-table3已经在数据目录中）进入DataArts Studio控制台首页的数据目录模块。单击左侧导航的“任务管理”，进入任务管理页面。在任务管理页面单击“新建”，新建一个元数据采集任务。配置任务信息，如下图所示。图1 配置任务信息单击“下一步”，配置调度属性如下图所示。图2 配置调度属性单击“提交”，完成采集任务的创建。单击任务管理列表中的“运行”或“启动调度”，跳转到任务监控页面并查看任务状态。

数据治理中心 DATAARTS STUDIO 数据目录典型场景教程

数据治理中心 DATAARTS STUDIO-配置增量元数据采集任务:场景四：更新数据目录中的元数据，添加新元数据，并从数据目录中删除元数据

场景四：更新数据目录中的元数据，添加新元数据，并从数据目录中删除元数据用户的数据库中数据表有删除的情况，采集任务能够删除数据目录中对应的数据表。例如数据库删除table1的情况下：采集前的数据表元数据：table1，table2，table3 采集后的数据表元数据：table2，table3 按照如下配置，采集任务会删除数据目录中的table1。进入DataArts Studio控制台首页的数据目录模块。单击左侧导航的“任务管理”，进入任务管理页面。在任务管理页面单击“新建”，新建一个元数据采集任务。配置任务信息，如下图所示。图7 配置任务信息单击“下一步”，配置调度属性如下图所示。图8 配置调度属性单击“提交”，完成采集任务的创建。单击任务管理列表中的“运行”或“启动调度”，跳转到任务监控页面并查看任务状态。

数据治理中心 DATAARTS STUDIO 数据目录典型场景教程

数据治理中心 DATAARTS STUDIO-配置增量元数据采集任务:场景三：仅更新数据目录中的元数据

场景三：仅更新数据目录中的元数据用户的数据库中数据表有新增的情况，采集任务仅采集数据目录中已经存在的表。例如新增table4的情况下：采集前的数据表元数据：table1，table2，table3 采集后的数据表元数据：table1，table2，table3 按照如下配置，采集任务仅采集table1，table2和table3。进入DataArts Studio控制台首页的数据目录模块。单击左侧导航的“任务管理”，进入任务管理页面。在任务管理页面单击“新建”，新建一个元数据采集任务。配置任务信息，如下图所示。图5 配置任务信息单击“下一步”，配置调度属性如下图所示。图6 配置调度属性单击“提交”，完成采集任务的创建。单击任务管理列表中的“运行”或“启动调度”，跳转到任务监控页面并查看任务状态。

数据治理中心 DATAARTS STUDIO 数据目录典型场景教程

表格存储服务 CLOUDTABLE-概述:基础概念

基础概念 Internal Catalog Doris原有的Database和Table都将归属于Internal Catalog。Internal Catalog是内置的默认Catalog，用户不可修改或删除。 External Catalog 可以通过CREATE CATA LOG 命令创建一个External Catalog。创建后，可以通过SHOW CATALOGS命令查看已创建的Catalog。切换Catalog 用户登录Doris后，默认进入Internal Catalog，因此默认的使用和之前版本并无差别，可以直接使用SHOW DATABASES，USE DB等命令查看和切换数据库。用户可以通过SWITCH命令切换Catalog。如： SWITCH internal; SWITCH hive_catalog; 切换后，可以直接通过SHOW DATABASES，USE DB等命令查看和切换对应Catalog中的Database。Doris会自动通过Catalog中的Database和Table。用户可以像使用Internal Catalog一样，对External Catalog中的数据进行查看和访问。当前，Doris只支持对 External Catalog中的数据进行只读访问。删除Catalog External Catalog中的Database和Table都是只读的。但是可以删除Catalog（Internal Catalog无法删除）。可以通过DROP CATALOG命令删除一个External Catalog。该操作仅会删除Doris中该Catalog的映射信息，并不会修改或变更任何外部数据目录的内容。 Resource Resource是一组配置的集合。用户可以通过CREATE RESOURCE命令创建一个Resource。之后可以在创建Catalog时使用这个Resource。一个Resource可以被多个Catalog使用，以复用其中的配置。

表格存储服务 CLOUDTABLE 多源数据目录

交换数据空间 EDS-查看发出的数据:查看发出的数据

查看发出的数据登录交换数据空间官网。单击“管理控制台”，进入交换数据空间控制台界面。单击“我的空间”，在交换数据空间实例中，选择实例，单击实例卡片上的“连接器”。选择连接器，单击连接器卡片上的“前往”，进入连接器控制台界面。选择界面左侧导航栏中的“数据目录”，选择“发出的数据”，进入“发出的数据”界面。在按批次或按合约页签，按照批次名称、批次编码或合约名称、合约编码进行搜索，即可查看合约详情。

交换数据空间 EDS 数据目录

交换数据空间 EDS-查看发出的数据:终止合约

终止合约终止合约只针对在创建合约时，控制策略“合约允许终止”为开启状态的合约。登录交换数据空间官网。单击“管理控制台”，进入交换数据空间控制台界面。单击“我的空间”，在交换数据空间实例中，选择实例，单击实例卡片上的“连接器”。选择连接器，单击连接器卡片上的“前往”，进入连接器控制台界面。选择界面左侧导航栏中的“数据目录”，选择“发出的数据”，进入“发出的数据”界面。按照如下两种方式进行合约终止。按批次单击合约卡片右上角“终止”，在弹框中输入终止说明，单击“确定”。按合约单击资源文件“操作”列的“终止”或卡片右上角“终止”，在弹框中输入终止说明，单击“确定”。

交换数据空间 EDS 数据目录

交换数据空间 EDS-查看发出的数据:创建（查看）合约消息

创建（查看）合约消息进入交换数据空间控制台界面，单击“我的空间”，在交换数据空间实例中，选择实例，单击实例卡片上的“连接器”。然后选择连接器，单击连接器卡片上的“前往”，进入连接器控制台界面。选择界面左侧导航栏中的“数据目录”，选择“发出的数据”，进入“发出的数据”界面。单击已生效合约对应的“消息”，在弹出的“消息”页签中输入留言的内容，单击“提交消息”，即可在该合约上发起消息会话。留言成功后，除创建消息的用户外，合约相关用户在合约的“消息”处都会看到红点新消息提示，并可对此留言进行回复。已生效的合约支持评论消息相关操作。提前终止、到期关闭、发送失败的合约支持查看历史消息。

交换数据空间 EDS 数据目录

数据治理中心 DATAARTS STUDIO-数据目录支持采集哪些对象的资产？

数据目录支持采集哪些对象的资产？数据目录目前支持采集数据湖的资产，例如 MRS Hive、 DLI 、DWS等，除此之外也支持采集以下数据源的元数据：关系型数据库，如MySQL/PostgreSQL等（可使用RDS类型连接，采集其元数据）云搜索服务 CSS 图引擎服务GES 对象存储服务 OBS MRS Hudi组件（MRS Hudi作为一种数据格式，元数据存放在Hive中，操作通过Spark进行。在Hudi表开启“同步hive表配置”后，可通过采集MRS Hive元数据的方式采集Hudi表的元数据）详情请参见支持的数据源。父主题：数据目录

数据治理中心 DATAARTS STUDIO 数据目录

交换数据空间 EDS-管理资源:删除资源

删除资源登录交换数据空间官网。单击“管理控制台”，进入交换数据空间控制台界面。单击“我的空间”，在交换数据空间实例中，选择实例，单击实例卡片上的“连接器”。然后选择连接器，单击连接器卡片上的“前往”，进入连接器控制台界面。选择界面左侧导航栏中的“数据目录”，在“数据目录”界面，选择“我的数据”一栏。单击待删除的资源文件或文件夹右侧“操作”列的“删除”。在弹出的提示窗口，单击“确定”，完成删除。

交换数据空间 EDS 数据目录

交换数据空间 EDS-管理资源:查看任务记录

查看任务记录登录交换数据空间官网。单击“管理控制台”，进入交换数据空间控制台界面。单击“我的空间”，在交换数据空间实例中，选择实例，单击实例卡片上的“连接器”。然后选择连接器，单击连接器卡片上的“前往”，进入连接器控制台界面。选择界面左侧导航栏中的“数据目录”，单击界面右上角的“任务记录”，查看任务名称、任务描述、任务状态、驱动类型、创建人和创建时间等详细信息。只可查看从数据源导入数据，驱动类型是 CDM 的任务。

交换数据空间 EDS 数据目录

云服务器内容精选

数据目录

7*24

备案

专业服务

退订

建议反馈

售前咨询热线