华为云用户手册

  • 自动血缘解析 自动血缘解析无需进行手动配置,当数据开发作业中包含如表1所示节点及场景时,系统支持自动解析血缘关系。 解析SQL节点的血缘时,支持多SQL解析及列级血缘解析,单条SQL语句不支持SQL中含有分号的场景。 表1 支持自动血缘解析的作业节点及场景 作业节点 支持场景 DLI SQL 支持解析DLI中表与表之间数据插入产生的血缘。 支持通过建表语句产生的OBS文件到DLI表之间的血缘。 DWS SQL 支持Insert into等DML操作产生的DWS表之间的血缘。 MRS Hive SQL 支持Insert into/overwrite等DML操作产生的MRS表之间的血缘。 MRS Spark SQL 支持Insert into/overwrite等DML操作产生的MRS表之间的血缘。 CDM Job 支持MRS Hive、DLI、DWS、RDS、OBS以及 CSS 之间表文件迁移所产生的血缘。 ETL Job 支持DLI、OBS、MySQL以及DWS之间的ETL任务产生的血缘。
  • 什么是数据血缘 大数据时代,数据爆发性增长,海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息,通过联姻融合、转换变换、流转流通,又生成新的数据,汇聚成数据的海洋。 数据的产生、加工融合、流转流通,到最终消亡,数据之间自然会形成一种关系。我们借鉴人类社会中类似的一种关系来表达数据之间的这种关系,称之为数据的血缘关系。与人类社会中的血缘关系不同,数据的血缘关系还包含了一些特有的特征: 归属性:一般来说,特定的数据归属特定的组织或者个人,数据具有归属性。 多源性:同一个数据可以有多个来源(多个父亲)。一个数据可以是多个数据经过加工而生成的,而且这种加工过程可以是多个。 可追溯性:数据的血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。 层次性:数据的血缘关系是有层次的。对数据的分类、归纳、总结等对数据进行的描述信息又形成了新的数据,不同程度的描述信息形成了数据的层次。 DataArts Studio 生成的血缘关系图如图1所示,为数据表对象,为作业节点对象,通过对象和箭头的编排表示血缘信息。从血缘关系图中可以看到,wk_02表数据是由wk_01表数据经过hive_1作业节点加工而生成的,wk_02表数据经由hive_2作业节点加工又分别生成了wk_03、wk_04和wk_05的表数据。 图1 数据血缘关系示例
  • DataArts Studio数据血缘实现方案 数据血缘的产生: DataArts Studio数据血缘解析方案包含自动分析血缘和手动配置血缘两种方式。一般推荐使用自动血缘解析的方式,无需手动配置即可生成血缘关系,在不支持自动血缘解析的场景下,再手动配置血缘关系。 自动血缘解析,是由系统解析数据开发作业中的数据处理和数据迁移类型节点后自动产生的,无需进行手动配置。支持自动血缘解析的节点类型和场景请参见自动血缘解析。 手动配置血缘,是在数据开发作业节点中,自定义血缘关系的输入表和输出表。注意手动配置血缘时,此节点的自动血缘解析将不生效。支持手动配置血缘的节点类型请参见手动配置血缘。 数据血缘的展示: 首先在数据目录组件完成元数据采集任务,当数据开发作业满足自动血缘解析要求或已手动配置血缘,然后成功完成作业调度后,则可以在数据目录模块可视化查看数据血缘关系。
  • 场景二:更新数据目录中的元数据,添加新元数据 用户的数据库中新增了数据表,采集数据源中指定的所有表。 例如新增table4的情况下: 采集前的数据表元数据:table1,table2,table3 采集后的数据表元数据:table1,table2,table3,table4 按照如下配置,采集任务会采集default下所有的表(table1-table4)。 进入DataArts Studio控制台首页的数据目录模块。 单击左侧导航的“任务管理”,进入任务管理页面。 在任务管理页面单击“新建”,新建一个元数据采集任务。 配置任务信息,如下图所示。 图3 配置任务信息 单击“下一步”,配置调度属性如下图所示。 图4 配置调度属性 单击“提交”,完成采集任务的创建。 单击任务管理列表中的“运行”或“启动调度”,跳转到任务监控页面并查看任务状态。
  • 场景一:仅添加新元数据 用户的数据库中新增的数据表,采集任务仅采集新增的表。 例如新增table4的情况下: 采集前的数据表元数据:table1,table2,table3 采集后的数据表元数据:table1,table2,table3,table4 按照下面的配置,采集任务仅会采集table4。(前提:table1-table3已经在数据目录中) 进入DataArts Studio控制台首页的数据目录模块。 单击左侧导航的“任务管理”,进入任务管理页面。 在任务管理页面单击“新建”,新建一个元数据采集任务。 配置任务信息,如下图所示。 图1 配置任务信息 单击“下一步”,配置调度属性如下图所示。 图2 配置调度属性 单击“提交”,完成采集任务的创建。 单击任务管理列表中的“运行”或“启动调度”,跳转到任务监控页面并查看任务状态。
  • 场景四:更新数据目录中的元数据,添加新元数据 ,并从数据目录中删除元数据 用户的数据库中数据表有删除的情况,采集任务能够删除数据目录中对应的数据表。 例如数据库删除table1的情况下: 采集前的数据表元数据:table1,table2,table3 采集后的数据表元数据:table2,table3 按照如下配置,采集任务会删除数据目录中的table1。 进入DataArts Studio控制台首页的数据目录模块。 单击左侧导航的“任务管理”,进入任务管理页面。 在任务管理页面单击“新建”,新建一个元数据采集任务。 配置任务信息,如下图所示。 图7 配置任务信息 单击“下一步”,配置调度属性如下图所示。 图8 配置调度属性 单击“提交”,完成采集任务的创建。 单击任务管理列表中的“运行”或“启动调度”,跳转到任务监控页面并查看任务状态。
  • 场景三:仅更新数据目录中的元数据 用户的数据库中数据表有新增的情况,采集任务仅采集数据目录中已经存在的表。 例如新增table4的情况下: 采集前的数据表元数据:table1,table2,table3 采集后的数据表元数据:table1,table2,table3 按照如下配置,采集任务仅采集table1,table2和table3。 进入DataArts Studio控制台首页的数据目录模块。 单击左侧导航的“任务管理”,进入任务管理页面。 在任务管理页面单击“新建”,新建一个元数据采集任务。 配置任务信息,如下图所示。 图5 配置任务信息 单击“下一步”,配置调度属性如下图所示。 图6 配置调度属性 单击“提交”,完成采集任务的创建。 单击任务管理列表中的“运行”或“启动调度”,跳转到任务监控页面并查看任务状态。
  • 数据权限简介 为确保数据使用安全可控,使用数据表需要先申请权限。 数据权限模块为用户提供便捷的权限管控能力,提供可视化申请审批流程,并可以进行权限的审计和管理。提高数据安全的同时,还可以方便用户进行数据权限管控。 数据权限模块包含数据目录权限、数据表权限和审批中心三大子模块。具备的功能如下所示: 权限自助申请:用户可以选择自己需要权限的数据表,在线上快速发起申请。 权限审计:管理员可以快速方便地查看数据库表权限对应人员,进行审计管理。 权限回收/交还:管理员可以通过用户权限管理及时回收用户权限,用户也可以主动交还不再需要的权限。 权限审批管理:提供可视化、流程化的管理授权机制,以及对审批流程进行事后追溯。 父主题: 配置数据访问权限
  • 约束限制 业务资产和指标资产来自于数据架构组件,会随数据架构同步的数据更新,但不支持随之删除。如需删除需要在数据目录中定位到资产后手动删除。 技术资产中的数据连接信息来自于管理中心的数据连接,会随管理中心同步的数据更新,但不支持随之删除。如需删除需要在数据目录中定位到资产后手动删除。 技术资产中的库表列等信息来自于元数据采集任务,是否更新和自动删除取决于元数据采集任务的参数配置,详情请参见配置元数据采集任务。 技术资产中的数据血缘关系更新依赖于作业调度,数据血缘关系是基于最新的作业调度实例产生的。需要注意的是,数据血缘关系删除需要通过删除作业或删除作业元数据的方式进行,仅将作业停止调度不会触发血缘关系的删除。
  • 查看工作空间内的数据资产 数据地图围绕数据搜索,服务于数据分析、数据开发、数据挖掘、数据运营等数据表的使用者和拥有者,提供方便快捷的数据搜索服务,拥有功能强大的血缘信息及影响分析。 搜索:在进行数据分析前,使用数据地图进行关键词搜索,帮助快速缩小范围,找到对应的数据。 详情:使用数据地图根据表名直接查看表详情,快速查阅明细信息,掌握使用规则。 血缘:通过数据地图的血缘分析可以查看每个数据表的来源、去向,并查看每个表及字段的加工逻辑。 父主题: 查看工作空间数据地图
  • 元数据简介 按照传统的定义,元数据(Metadata)是关于数据的数据。元数据打通了源数据、 数据仓库 、数据应用,记录了数据从产生到消费的全过程。元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。在数据仓库系统中,元数据可以帮助数据仓库管理员和开发人员非常方便地找到其所关心的数据,用于指导其进行数据管理和开发工作,提高工作效率。 在DataArts Studio中,元数据是数据的描述数据,可以为数据说明其属性(数据连接、类型、名称、大小等),或其相关数据(位于拥有者、标签、分类、密级等)。 元数据按用途的不同,可以分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据。在DataArts Studio中,技术元数据即为技术资产,显示数据库、数据表、数据量的数量及其详情。 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。在DataArts Studio中,业务元数据包含业务资产和指标资产,业务资产显示业务对象、逻辑实体、业务属性的数量及其详情,指标资产显示业务指标及其详情。 DataArts Studio中的技术元数据来源于元数据采集任务,您需要在创建并运行元数据采集任务后才能在数据地图中查看元数据。 父主题: 采集数据源的元数据
  • 操作步骤 建立跨源数据连接。 创建DLI数据连接。在DataArts Studio管理中心模块,单击创建数据连接,数据连接类型选择“ 数据湖探索 (DLI)”,输入数据连接名称,单击“测试”,提示连接成功,单击“确定”。 创建DWS数据连接。在DataArts Studio管理中心模块,单击创建数据连接,数据连接类型选择“数据仓库服务(DWS)”,输入数据连接名称,设置其他参数,如下图所示,单击“测试”,提示连接成功,单击“确定”。 创建对账作业。 在DataArts Studio数据质量模块,单击左侧导航菜单“对账作业”。 单击“新建”,配置对账作业的基本信息,如下图所示。 图1 配置基本信息 单击“下一步”,进入规则配置页面。您需要单击规则卡片中的,然后配置对账规则,如下图所示。 需要分别配置源端和目的端的信息。配置源端连接请参见DWS数据连接参数说明,配置目的端连接请参见DLI数据连接参数说明。 配置告警条件,其中单击左侧的表行数(${1_1})表示左侧源端选中表的行数,单击右侧表行数(${2_1})表示目的端表行数。此处配置告警条件为${1_1}!=${2_1},表示当左侧表行数与右侧表行数不一致时,触发报警并显示报警状态。 单击“下一步”,配置订阅信息,如下图所示。 勾选触发告警表示作业报警时发送通知到对应的smn主题,勾选运行成功表示不报警时发送通知到 SMN 主题。 单击“下一步”,配置调度方式,如下图所示。 单次调度表示需要手动触发运行,周期性调度表示会按照配置定期触发作业运行。此处以当天配置为例,设置每15分钟触发运行一次对账作业为例的配置。 单击“提交”,对账作业创建完成。 查看对账作业。 单击对应的对账作业操作列中的运行链接,运行对账作业后,自动跳转到运维管理页面。 单击结果&日志查看运行结果和运行日志,等待作业运行结束后,如下图所示。
  • 操作步骤 在DataArts Studio控制台首页,选择对应工作空间的“数据质量”模块,进入数据质量页面。 创建规则模板。 单击左侧导航“规则模板”,默认展示系统自定义的规则。数据质量的规则包含6个维度,分别是:完整性、唯一性、及时性、有效性、准确性、一致性。 可选:单击“新建”,可自定义创建规则。 本例使用系统自定义的规则即可。 创建质量作业。 单击左侧导航“质量作业”。 单击“新建”,配置质量作业的基本信息,如下图所示。 单击“下一步”,进入规则配置页面。您需要单击规则卡片中的,然后配置规则信息,如下图所示。 单击“下一步”,配置告警信息,如下图所示。 单击“下一步”,配置订阅信息,如下图所示。 单击“下一步”,配置调度信息,如下图所示。 单击“提交”,完成质量作业的创建。 在质量作业表中,单击操作列的“运行”,跳转到运维管理模块。 待质量作业运行成功后,单击左侧导航菜单的“质量报告” 默认展示技术报告,如下图所示。 图1 技术报告 单击“业务报告”页签,查看业务报告,如下图所示。 图2 业务报告
  • 操作步骤 在DataArts Studio控制台首页,选择对应工作空间的“数据质量”模块,进入数据质量页面。 新建业务指标。 单击左侧导航“指标管理”。 单击页面上方的“新建”,如下图所示。 单击“试跑”,查看试跑运行成功的结果。 单击“保存”,完成指标的创建。 新建规则。 单击左侧导航“规则管理”。 单击页面上方的“新建”,创建第一条规则。 输入参数值,如下图所示。 单击“保存”。 单击页面上方的“新建”,创建第二条规则。 输入参数值,如下图所示。 单击“保存”。 新建业务场景。 单击左侧导航“业务场景管理”。 单击页面上方的“新建”,输入场景的基本配置参数,如下图所示。 单击“下一步”,输入规则组的配置参数,如下图所示。 单击“下一步”,配置订阅信息,如下图所示。 单击“下一步”,配置调度信息,如下图所示。 单击“提交”,完成作业场景的创建。 在业务场景管理列表中,单击操作列的“运行”,跳转到运维管理模块。 单击右上角的刷新按钮,可以查看业务场景的运行状态为成功。 单击运行结果,可查看具体的坪效结果。
  • 更多操作 导出 勾选需要导出的作业实例名称,单击“导出”,弹出“导出实例运行结果”页面,再次单击“导出”,可以在“导出记录”页签查看导出实例的结果是否成功,可以下载导出成功的作业实例。系统支持查看近3个月的导出记录。 删除 勾选需要删除的作业实例名称,单击“删除”,可以批量删除作业实例。 停止运行 勾选需要停止运行的作业实例名称,单击“停止运行”,可以批量停止运行中的作业实例。 重跑 选择需要重跑的作业实例名称,单击作业实例右侧“操作”列的“重跑”,可以重跑该作业实例。
  • 数据质量监控简介 数据质量监控DQC(Data Quality Control)模块是对数据库里的数据质量进行质量管理的工具。您可从完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行、跨源和跨表的分析。数据质量支持对离线数据的监控,当离线数据发生变化时,数据质量会对数据进行校验,并阻塞生产链路,以避免问题数据污染扩散。同时,数据质量提供了历史校验结果的管理,以便您对数据质量分析和定级。 另外,数据质量监控DQC支持根据数据架构中的数据标准,自动生成标准化的质量规则,并进行周期性的监控。 数据质量监控主界面包括以下功能模块。 功能 说明 总览 默认首页是总览页面,显示了数据表的报警和阻塞情况。 主要包括以下几部分内容: 所选周期内的作业数、实例数、异常表数,以及各种实例运行状态的分布和变化趋势情况。 当天告警分类统计、当天数据表告警统计、最近7天规则告警分类趋势的统计和最近7天规则数量的趋势。 规则模板 质量规则模板是数据质量的核心功能,是配置规则的主要入口。它主要管理规则配置(内置模板和自定义模板)的相关功能。 质量作业 质量作业可将规则模板或自定义规则应用到表中,进行数据质量监控。 对账作业 对账作业可将创建的规则应用到两张表中进行质量监控,并输出对账结果。 运维管理 运维管理用于查看规则运行状态,处理运维问题。 质量报告 系统根据作业的结果,会自动生成质量报告。 父主题: 数据质量监控
  • 业务指标监控简介 当前,数据架构有完善的指标设计和管理能力,建议您后续使用数据架构的业务指标功能,数据质量的业务指标监控模块即将下线。 业务指标监控模块是对业务指标进行质量管理的工具。 为了进行业务指标监控,您可以先自定义SQL指标,然后通过指标的逻辑表达式定义规则,最后新建并调度运行业务场景。通过业务场景的运行结果,您可以判断业务指标是否满足质量规则。业务场景的运行结果说明如下: 正常:表示实例正常结束,且执行结果符合预期。 告警:表示实例正常结束,但执行结果不符合预期。 异常:表示实例未正常结束。 --:表示实例正在运行中,无执行结果。 业务指标监控主界面包括以下功能模块。 功能 说明 总览 默认首页是总览页面,显示了业务场景实例的运行状态和告警状态。 主要包括以下几部分内容: 快速入门,介绍业务指标监控的业务流。 最近7天内的业务场景实例运行分布情况、实例告警运行分布情况。 可选周期内的告警趋势图、业务场景看板图、指标看板图。 指标管理 指标管理是业务指标监控的核心功能模块,是配置指标的主要入口。 规则管理 规则管理是配置规则的主要入口,支持通过指标的逻辑表达式定义规则。 业务场景管理 业务场景可以认为是业务指标质量作业,将创建的规则组进行调度运行。 运维管理 运维管理用于查看业务场景运行状态,处理运维问题。其中我的订阅中显示了所有订阅的任务运行情况。 父主题: 业务指标监控(待下线)
  • 查看模型视图 当您在关系模型中完成表的新建后,就可以通过列表视图和模型视图两种形式查看表模型。关系模型页面默认显示为列表视图,您可以切换为模型视图进行查看。 在DataArts Studio数据架构控制台,单击左侧导航栏的“关系建模”进入关系建模页面。 在页面的中间栏位,从最上方的下拉列表中找到所需要的物理模型,或者从“数仓规划”选择一个物理模型单击进入,在主题目录中选中一个对象。 单击表名称进入后,选择“关系图”页签,查看模型视图。 图1 模型视图 在模型视图中支持以下功能: 双击表名,可显示表的详情信息。 单击左上角的“导出图片”按钮,可以将模型视图导出成图片。 在右上角的搜索框中输入表名,可以快速找到的所要查看的表。 功能依次为放大、缩小、全屏、物理模型/逻辑模型切换、刷新、显示画布。
  • 关联质量规则并查看质量作业 在DataArts Studio数据架构控制台,单击左侧导航栏的“关系建模”进入关系建模页面。 在页面选择所需要的模型单击进入,在右侧的列表中将显示该模型下面所有的表。您也可以展开主题结构,选中一个对象,右侧的列表中将显示该对象下所有的表。 在列表中,找到所需要的表,单击表名称进入表详情页面。 图1 关系模型列表 在详情页的表字段区域,选中需要关联质量规则的字段,然后单击“关联质量规则”按钮。 图2 关联质量规则 异常数据输出配置:勾选此项,并勾选生成异常数据,表示异常数据将按照配置的参数存储到规定的库中。 在弹出的“关联质量规则”对话框中,单击“添加规则”。 图3 添加质量规则页 此时,系统将弹出“添加规则”对话框,在规则列表中将显示DataArts Studio数据质量中默认的质量规则,选中所需要的规则,然后单击“确定”。如果列表中的规则不满足业务需求,您也可以创建自定义规则,单击“新建规则”可以跳转到DataArts Studio数据质量页面,请参考新建数据质量规则新建规则。 图4 添加规则 添加规则完成后,将返回“关联质量规则”对话框,在“规则名称”列表中,选中一条规则,然后设置告警条件,设置完所有规则的告警条件后单击“确定”。 在“告警条件”输入框中,请输入告警条件表达式,在质量作业运行时,系统将计算出告警条件表达式的结果,并根据表达式的结果是否为真来判断是否触发告警。如果表达式的结果为真则触发质量告警,结果为假则不触发质量告警。 告警条件表达式由告警参数和逻辑运算符组成。 每个规则的告警参数会在“告警参数”中以按钮形式列出。单击这些按钮,在“告警条件”中将按告警参数的排列顺序显示为${1}、${2}、${3}等变量名称,以此类推,变量名即代表告警参数。也就是说,在设置“告警条件”时,使用变量${1}代表第一个告警参数,${2}代表第二个告警参数,以此类推。 图5 设置告警条件 (可选)如需要将质量作业中不符合设定规则的异常数据存储在异常表中,可以打开“异常数据输出配置”开关。 图6 异常数据输出开关 单击开关,并打开“生成异常数据”按钮,表示异常数据将按照配置的参数存储到规定的库中。 图7 异常数据输出配置 各参数具体含义如下: 数据库或Schema:表示存储异常数据的数据库或Schema。 表前缀:表示存储异常数据的表的前缀。 表后缀:表示存储异常数据的表的后缀。 配置完成后单击保存配置。 (可选)质量规则的检查范围默认是全表,如需要精确定位分区查询数据,请填写where条件。 图8 where条件开关 查看关联质量规则的结果,如果显示成功,单击“确定”。如果显示失败,请查看失败原因,等问题处理后,再重新关联质量规则。 图9 关联结果 返回关系模型列表页面,找到已关联质量规则的表,在“同步状态”列中,鼠标移至创建质量作业的图标上,单击“查看”进入质量作业页面查看已添加的质量规则。 图10 质量作业同步状态 进入质量作业的“规则配置”页面,可以查看刚才添加的质量规则。 图11 质量规则 此外,在建表时已关联的数据标准,在表发布后也会在上图中生成相应的质量规则,您可以在质量作业中进行查看。 字段关联的数据标准生成的质量规则,示例如下: 图12 字段关联的质量规则 字段关联了数据标准,数据标准关联的码表生成的质量规则,示例如下: 图13 码表的质量规则
  • 删除业务指标 如果您已不再需要某个业务指标,可以删除该业务指标。如果待删除的业务指标已发布,则无法执行删除操作,您必须先将该业务指标下线后,才能执行删除操作。 在数据架构控制台,单击左侧导航树中的“业务指标”,进入业务指标页面。 在维度列表中找到需要删除的业务指标度,勾选该业务指标,然后单击业务指标列表上方“更多”中的“删除”。 图7 删除业务指标 在系统弹出的“删除”对话框中,确认无误后,单击“是”将业务指标删除。
  • 导入流程 在数据架构控制台,单击左侧导航树中的“流程设计”,进入流程设计页面。 单击流程列表上方的“导入”按钮导入流程。 在“导入流程”对话框中,根据页面提示配置如下参数,然后先单击“添加文件”后,再单击“上传文件”。 图4 导入流程 表2 导入配置参数说明 参数名 说明 更新已有数据 如果所要导入的流程,在DataArts Studio数据架构中已经存在,是否更新已有的流程。支持以下选项: 不更新:当流程已存在时,将直接跳过,不处理。 更新:当流程已存在时,更新已有的流程信息。 在导入流程时,只有创建或更新操作,不会删除已有的流程。 上传模板 选择所需导入的流程设计文件。 所需导入的流程设计文件,可以通过以下两种方式获得。 下载流程模板并填写模板 在“导入配置”页签内,单击“下载流程模板”下载模板,然后根据业务需求填写好模板中的相关参数并保存后,先添加再上传,完成模板上传。模板参数的详细描述请参见表3。 导出的流程 您可以将某个DataArts Studio实例的数据架构中已建立的流程设计信息导出到Excel文件中。导出后的文件可用于导入。导出流程的操作请参见导出流程。 下载的流程模板参数如表3所示,其中名称前带“*”的参数为必填参数,名称前未带“*”的参数为可选参数。一个流程需要填写一条记录。 表3 流程导入参数说明 参数名 说明 上级流程 第一层的流程,其上级流程为空,不用填。 非第一层的流程,其上级流程不能为空。上级流程为多级流程时,流程之间以“/”分隔。例如“集成产品开发/开发生命周期”。 *名称 流程名称。 *责任人 流程的责任人,可以手动输入名字或直接选择已有的责任人。 描述 流程的描述信息。 导入结果会在“导入流程”对话框的“上次导入”中显示。如果导入结果为“成功”,单击“关闭”完成导入。如果导入失败,您可以在“备注”列查看失败原因,将模板文件修改正确后,再重新上传。
  • 添加审核人 审核人必须是当前工作空间下具有审核权限的成员,需要先在“DataArts Studio首页-空间管理”的工作空间内编辑并添加空间成员。 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后,选择“审核人管理”页签。 在“审核人管理”页面,单击“添加”按钮。 在弹出的添加对话框中,选择审核人,输入正确的手机号码和电子邮箱,单击“确定”完成审核人添加。 审核人必须是当前工作空间下具有审核权限的成员,只有管理员和开发者才具有审核权限。 审核人不支持手工添加,需要先在“DataArts Studio首页-空间管理”的工作空间内编辑并添加空间成员,以便添加审核人时进行选择。 勾选短信通知或邮件通知,并添加审核人后,DataArts Studio将自动在 消息通知 服务(SMN)中创建对应的主题。 主题的显示名格式为:DataArts_主题_审核人_项目名称_项目ID-dlg_ds_审核人名称。 图1 添加审核人 根据需要,可以添加多个审核人。
  • 指标配置 在数据架构控制台,单击左侧导航树中的“配置中心”,然后再选择“指标配置”页签。 管理业务指标 新建指标 单击业务指标自定义项旁的新建按钮,或在已有指标的情况下,单击操作列的图标新增指标。完成后配置如下参数,然后单击“保存”。 图9 新建指标 表3 新建指标参数说明 参数名称 说明 选项名称 自定义指标名称。不超过100字符。 选项名称(英文) 自定义指标英文名称。不超过100字符。 可选值 设置自定义指标在创建业务指标时的可选值。 是否必填 设置自定义指标在创建业务指标时是否为必填项 描述 自定义指标的描述。不超过200字符。 调整指标排序 在有多个指标的情况下,可以通过操作列调整指标的排序。单击图标可进行指标的上移或者下移,双击图标可以输入序号将当前行移动到指定位置。 图10 调整指标排序 图11 移动到指定位置 删除指标 如果需要删除自定义指标,单击操作列的图标就可删除该指标。 图12 删除指标 完成自定义指标的设置后,在新建业务指标界面和完成发布的业务指标的基本信息界面,会显示已保存的自定义指标。 图13 新建业务指标 图14 基本信息界面
  • 编码规则 在数据架构控制台,单击左侧导航树中的“配置中心”,然后再选择“编码规则”页签。 管理编码规则。 添加编码规则 如果需要自定义编码规则,在“编码规则”列表上方,单击“添加”,在弹出对话框中,配置如下参数,然后单击“确定”。 图8 添加编码规则 表2 添加编码规则说明 参数名称 说明 类型 选择编码规则的类型,当前支持如下六种: 业务指标,逻辑实体,逻辑属性, 数据标准、码表、业务对象。 生效范围 生效范围默认是全局。可以选择 主题、流程、码表、数据标准下一级路径。 系统规则 是否为系统规则。自定义的编码规则系统预置为否,不能修改。 编码规则 采用前缀+数字码的方式,不能修改。 前缀 可以是“英文字符”+“数字”的方式,但不能以数字结尾。支持修改。 数字码 支持顺序码和随机码两种方式。 起始码 数字码范围的起始值。 结束码 数字码范围的终止值。 编码示例 根据前缀动态修改后,可以更新展示。 删除编码规则 如果需要删除自定义编码规则,在“编码规则”列表勾选待删除的编码规则,单击列表上方的“删除”,在弹出对话框中,单击“是”即可删除。 系统预置的六个编码规则(逻辑实体、 数据标准、逻辑属性、业务指标、码表、业务对象),不可以删除。 编辑编码规则 如果需要修改自定义编码规则,单击“编码规则”列表中待修改编码规则的“编辑”,弹出“修改编码规则”对话框,修改完成后,单击“确定”。
  • DDL模板管理 在DataArts Studio数据架构中,支持修改各种类型(例如DLI、POSTGRESQL、DWS、Hive、SPARK、DORIS)的表或DLI视图的DDL模板。如果您需要将已创建的某一类型的表生成其他数据源的DDL语句,您就可以根据目标数据源的DDL语法,修改该类型的表的DDL模板。 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后再单击“DDL模板管理”。 在“DDL模板管理”页面,您可以配置各种类型的表或DLI视图的DDL模板,您可以参考该页面中的“填写说明”修改DDL模板,修改完成后单击“确定”。如果单击“重置”可恢复默认设置。 如图7所示,说明如下: 新建:可查看或编辑新建表或DLI视图的DDL模板。 更新:可查看或编辑更新表或DLI视图的DDL模板。 删除:可查看或编辑删除表或DLI视图的DDL模板。 衍生指标:可以查看或编辑衍生指标的SQL模板。 复合指标:可以查看或编辑复合指标的SQL模板。 汇总表:可以查看或编辑汇总表的SQL模板。 “参考数据”区域:显示了一个表详情的示例,示例中的变量定义了表的详细信息。 “模板代码编辑”区域:可以编辑DDL模板。如果您需要将所选类型的表,生成其他类型的数据库的DDL语句,您可以根据目标数据源的DDL语法,修改DDL模板。 “预览结果”区域:编辑DDL模板后,可以预览按模板生成的DDL语句。 图7 DDL模板管理
  • 字段类型 当您执行新建表、逆向数据库或模型转换等操作时,如果系统默认的数据类型或不同数据源之间的数据类型映射关系无法满足需求,您可以增加、删除或修改数据类型。系统默认的数据类型不支持删除。 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后再单击“字段类型”页签。 在“字段类型”页面,您可以查看数据类型及不同数据源之间的数据类型映射关系,其中“创建人”为SYSTEM的类型为系统默认的字段类型。 类型分组说明如下: DEFAULT:通用数据类型,未指定数据源类型时建表所用的字段类型。例如,新建逻辑模型的表时,就是使用DEFAULT分组中的数据类型。 DLI:DLI连接类型的表的数据类型。 DWS:DWS连接类型的表的数据类型。 MRS_HIVE:MRS_HIVE连接类型的表的数据类型。 MRS_SPARK:MRS_SPARK连接类型Hudi表的数据类型。 POSTGRESQL:POSTGRESQL连接类型的表的数据类型。 CLICKHOUSE:CLICKHOUSE连接类型的表的数据类型。 MYSQL:MYSQL连接类型的表的数据类型。 ORACLE:ORACLE连接类型的表的数据类型。 DORIS:DORIS连接类型的表的数据类型。 图5 字段类型 管理字段类型。 新建类型 如果要增加数据类型,单击“新建”按钮。在弹出对话框中,配置如下参数,然后单击“确定”。 图6 新建类型 表1 基本配置 参数名称 说明 类型分组 选择新建类型所属的类型分组。 名称 数据类型的名称。只能包含中文、英文字母、数字、左右括号、空格和下划线,且以中文或英文字母开头。 编码 数据类型的编码,必须为数仓支持的类型。只能包含大写字母,下划线,数字,且以大写字母或下划线开头。 所属域 选择新建类型所属的域。 是否有拓展 对于某些数据类型,需要设定数据的长度范围时,可以打开“是否有拓展”开关,并配置对应的拓展。 例如高精度数据类型DECIMAL(p,s),需要分别指定小数的最大位数(p)和小数位的数量(s),则数据类型DECIMAL的默认拓展可填写为“(10,2)”,指的是小数点左侧的位数为2,小数点右侧的最大位数为10-2=8;又如数据类型VACHAR也需要指定位数,当默认拓展填写为“10”,指的是最大长度为10字符。 数仓对应类型 选择新建类型所映射连接的数据类型。 DEFAULT 选择新建类型所映射的DEFAULT连接的数据类型。 CLICKHOUSE 选择新建类型所映射的CLICKHOUSE连接的数据类型。 DLI 选择新建类型所映射的DLI连接的数据类型。 DWS 选择新建类型所映射的DWS连接的数据类型。 MRS_HIVE 选择新建类型所映射的MRS_HIVE连接的数据类型。 MRS_SPARK 选择新建类型所映射的MRS_SPARK连接的数据类型。 MYSQL 选择新建类型所映射的MYSQL连接的数据类型。 ORACLE 选择新建类型所映射的ORACLE连接的数据类型。 POSTGRESQL 选择新建类型所映射的POSTGRESQL连接的数据类型。 DORIS 选择新建类型所映射的DORIS连接的数据类型。 编辑类型 在字段类型列表中,找到需要编辑的字段类型,然后单击按钮进行编辑,参数说明请参见表1。 删除类型 仅支持对于用户新建的数据类型进行删除操作。“创建人”为SYSTEM的类型为系统默认的字段类型,不支持删除操作。 在字段类型列表中,找到需要删除的字段类型,单击按钮,然后在弹出对话框中单击“确定”完成删除。 重置 单击“字段类型”页面底部的“重置”按钮,可恢复系统默认配置。
  • 模型配置 当您在主题设计、模型设计等过程中,如果需要进行如下操作,您可以通过本页面进行配置: 增加主题别名、表模型别名、字段别名。 启用密级。 设置长度。 增加表的自定义字段。 增加属性的自定义字段。 图4 模型配置 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后再单击“模型配置”页签。 启用别名。在“模型配置”页面,您可以增加别名。 选项说明如下: 主题设计:选择之后,在新建、编辑主题时,必须输入别名。 表模型:选择之后,在新建、编辑表时,必须输入别名。会影响业务表、维度(维度表)、事实表和汇总表等。 字段:选择之后,在新建、编辑表字段时,必须输入别名。 启用密级。默认开启该字段。 名称长度:设置表名称和属性名称的长度。 表自定义项。在新建、编辑表时,可以在表的基本设置中设置自定义的字段。会影响业务表、维度(维度表)、事实表和汇总表等。 属性自定义项。在新建、编辑表字段时,可以在表字段中设置自定义的属性。会影响业务表、维度(维度表)、事实表和汇总表等。
  • 功能配置 功能配置用于自定义数据架构中的各项功能。 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后再单击“功能配置”。 在功能配置页面,可根据用户具体的功能需求配置参数,然后单击“确定”。如果单击“重置”可恢复默认设置。 图2 功能配置 模型设计业务流程步骤:此处勾选的流程,在关系建模或维度建模的对象发布上线时,系统会依次自动执行。一般建议全部勾选。 创建表:当数据架构中的表发布并通过审核后,系统将自动在对应的数据源中创建相应的物理表。在表删除时,系统也会自动删除物理表。 同步技术资产:关系建模或维度建模中的表发布后,同步表到数据目录模块作为技术资产,同时同步标签到对应技术资产。 若开启“同步技术资产”功能,您必须预先在DataArts Studio数据目录模块中对表所属的数据库创建数据目录采集任务并采集成功,否则同步技术资产将会执行失败。 同步业务资产:同步逻辑模型到数据目录,作为业务资产,同时同步标签到对应业务资产。 资产关联:实现业务资产与技术资产的关联。业务资产与技术资产同步完成后,在数据目录模块中查看对应的业务资产或技术资产详情时,可以看到相关联的技术资产或业务资产。该功能要求表信息中含有数据源信息。 创建质量作业:当关系建模或维度建模中的表发布并通过审核后,对于关联数据标准(包含数据长度或允许值)或关联质量规则的表,系统将自动在DataArts Studio数据质量模块中创建一个质量作业。 创建数据开发作业:汇总表发布后,自动生成端到端的全流程数据开发作业。 发布数据服务API:汇总表发布后,自动生成数据服务API,此功能仅当数据服务支持汇总表的数据连接时生效。 数据落库:码表维度发布后,会自动将码表的数值填入维度表中。 模型下线流程:选择当模型下线时,是否同步删除技术资产、业务资产、质量作业、数据开发作业。 数据表更新方式:当数据架构中的表在发布后进行了修改,是否同时更新数据库中的表。默认为“不更新”,但在配置中心可以依据自己的需求设置更新动作。依据DDL模板, 在模板里面配置对应的更新语句即可。 不更新:不更新数据库中的表。 依据DDL更新模板:依据DDL模板管理中配置的DDL更新模板,更新数据库中的表,但能否更新成功是由底层数仓引擎的支持情况决定的。由于不同类型的数仓支持的更新表的能力不同,在数据架构中所做的表更新操作,如果数仓不支持,则无法确保数据库中的表和数据架构中的表是一致的。例如,DLI类型的表更新操作不支持删除表字段,如果在数据架构的表中删除了表字段,则无法在数据库中相应的删除表字段。 如果线下数据库支持更新表结构语法,可以在DDL模板配置对应语法, 之后更新操作就可以通过DataArts Studio管控;如果线下数据库不支持更新, 那只有通过重建这种方式更新。 重建数据表:先删除数据库中已有的表,再重新创建表。选择该选项可以确保数据库中的表和数据架构中的表是一致的,但是由于会先删除表,因此一般建议只在开发设计阶段或测试阶段使用该选项,产品上线后不推荐使用该选项。 数据表不区分大小写:对于选中的连接类型,在发布相应类型的表时,同步技术资产时名称将不区分大小写,找到相同的即认为已存在。 物理表同步业务资产:在开启了“同步业务资产”且没有创建逻辑实体的前提下,为了避免物理表发布会覆盖同名逻辑表的情况发生,可主动关闭该选项,物理表发布后不会同步业务资产,只会进行资产关联。数据资产关联前会进行业务资产查找,如没有查找到相应的业务资产则会报错并结束资产关联。 业务表映射使用新版本:系统默认为新版本映射。新版本映射功能支持join等操作,推荐使用新版本映射。 汇总表自动汇聚:发布衍生指标或复合指标时,系统支持自动生成汇总表,一个统计维度对应一个汇总表。自动生成的汇总表可在汇总表页面下选择“自动汇聚”页签查看。 数据标准是否重名:默认关闭,打开后数据标准可以重名。 导入数据标准时自动创建目录:默认开启,打开后导入数据标准时可以自动创建目录。 是否启用公共层:开关打开后,可将当前空间转化为公共层空间。公共层空间的码表和数据标准会共享给所有普通空间;普通空间可以查询、引用公共层空间的码表和数据标准,但无法进行新增、修改和删除的操作。 当前空间转换为公共层空间后,不支持回退为普通空间,其他普通空间也不能再转换为公共层空间。请谨慎选择您的公共层空间。 公共层空间无法反向查询、引用或操作普通空间的数据。 时间限定生成使用动态表达式:开关打开后,则使用动态时间表达式;如开关关闭,则默认使用原有的静态时间表达式。例如时间限定设置为最近30天:如果使用静态表达式,如果当前为9月,生成的最近30天的数据就是8月,即使当前到了10月,生成的数据还是8月,不能自动更新;如果使用动态表达式,当前到了10月,最近30天自动更新为9月。动态表达式时间函数举例如下所示: 图3 动态表达式 如果第一次打开开关,需重置DDL模板中的衍生指标。如之前有修改过DDL模板,请先做好模板备份。重置模板会将原来修改过的模板覆盖,重置后需要将原来修改的内容重新编辑一次。 信息架构页面表查询时,主题支持并列查询个数:默认为1个,暂不支持设置。 码表数据落库并行行数:码表维度发布后,设置将码表的数值填入维度表中时的并行操作行数。当码表数值较多时,会导致落库失败,可以适当调小该参数。 码表生成质量规则:下拉选择即可。当码表的数据量较小时,选择“枚举值校验”即可;否则选择“字段一致性校验”。 选择“字段一致性校验”的前提是码表在数据库中存在,通过以下方式生成的码表会在数据库中存在: 逆向数据库生成的码表。 新建维度时,通过码表维度发布的码表。 汇总表引用维度字段命名规则:设置汇总表在新建、编辑、导入和生成时的命名规则,可选“维度表名_维度属性名”和“维度属性名”。 导出文件类型:数据架构导出功能支持“xlsx”和“et”两种格式。逻辑模型、物理模型、维度(表)、事实表、汇总表以及其他导出均支持两种格式。 生成数据服务API:包含“按汇总表整表生成单个API”和“按汇总表指标生成数个API”两种生成数据服务API的方式。
  • 标准模板管理 标准模板管理用于自定义数据标准的默认选项。首次进入数据架构的数据标准页面,也会显示制定数据标准模板的页面。 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后再单击“标准模板管理”。 如下图所示,在“可选项”中勾选所需要的选项,单击“新建”按钮可以添加自定义项,完成后单击“确定”。 标准模板支持“是否可搜索”、“是否必填”、“可选值”。 保存模板后,在新建数据标准时需要设置此处模板中所选中选项的参数值。 首次进入数据架构的数据标准页面,可选项默认选取“数据长度”和“描述”,其他选项请按需求勾选。 添加自定义项时,支持同时添加中文与英文的自定义项。 图1 标准模板管理
  • 主题流程配置 主题流程配置用于自定义主题设计中的主题层级和自定义属性。系统默认有三个层级,从上到下分别命名为主题域分组(L1)、主题域(L2)、业务对象(L3)。您可以自定义的主题层级限制在最大7层,最少2层。自定义属性最多可以配置10个。 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后再单击“主题流程配置”页签。 在主题层级区域,可对主题层级进行增加、删除和编辑操作。 在“操作”栏中单击按钮可以添加自定义主题层级项,完成后单击“确定”。 在“操作”栏中单击按钮可以删除主题层级项,完成后单击“确定”。 除最后一层业务对象外,其它层级均可以通过单击对应的层级名称实现“编辑”操作。 在主题自定义项区域,可对属性进行增加、删除和编辑操作。 在“主题自定义项”右侧,单击“新建”可新增一条自定义属性。主题自定义项属性的可选值支持一次性可输入多个值,可选值不可重复。 在“操作”栏中单击按钮可以删除一条自定义属性。 单击对应的属性名称(中文)、属性名称(英文)、可选值,是否必填,描述,实现“编辑”操作。 在流程层级数区域,可设置流程设计的层数,层级最小3级,最大7级。
共100000条