数据治理中心 DataArts Studio-什么是数据血缘关系？

时间：2025-01-26 10:47:30

数据治理中心 DataArts Studio

什么是数据血缘关系？

大数据时代，数据爆发性增长，海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息，通过联姻融合、转换变换、流转流通，又生成新的数据，汇聚成数据的海洋。

数据的产生、加工融合、流转流通，到最终消亡，数据之间自然会形成一种关系。我们借鉴人类社会中类似的一种关系来表达数据之间的这种关系，称之为数据的血缘关系。与人类社会中的血缘关系不同，数据的血缘关系还包含了一些特有的特征：

DataArts Studio 生成的血缘关系图如图1所示，

为数据表对象，

为作业节点对象，通过对象和箭头的编排表示血缘信息。从血缘关系图中可以看到，wk_02表数据是由wk_01表数据经过hive_1作业节点加工而生成的，wk_02表数据经由hive_2作业节点加工又分别生成了wk_03、wk_04和wk_05的表数据。

图1 数据血缘关系示例

父主题： 数据目录

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往