云服务器内容精选

  • 操作步骤 在 DataArts Studio 控制台首页,选择对应工作空间的“数据质量”模块,进入数据质量页面。 新建业务指标。 单击左侧导航“指标管理”。 单击页面上方的“新建”,如下图所示。 单击“试跑”,查看试跑运行成功的结果。 单击“保存”,完成指标的创建。 新建规则。 单击左侧导航“规则管理”。 单击页面上方的“新建”,创建第一条规则。 输入参数值,如下图所示。 单击“保存”。 单击页面上方的“新建”,创建第二条规则。 输入参数值,如下图所示。 单击“保存”。 新建业务场景。 单击左侧导航“业务场景管理”。 单击页面上方的“新建”,输入场景的基本配置参数,如下图所示。 单击“下一步”,输入规则组的配置参数,如下图所示。 单击“下一步”,配置订阅信息,如下图所示。 单击“下一步”,配置调度信息,如下图所示。 单击“提交”,完成作业场景的创建。 在业务场景管理列表中,单击操作列的“运行”,跳转到运维管理模块。 单击右上角的刷新按钮,可以查看业务场景的运行状态为成功。 单击运行结果,可查看具体的坪效结果。
  • 查看工作空间内的数据资产 数据地图围绕数据搜索,服务于数据分析、数据开发、数据挖掘、数据运营等数据表的使用者和拥有者,提供方便快捷的数据搜索服务,拥有功能强大的血缘信息及影响分析。 搜索:在进行数据分析前,使用数据地图进行关键词搜索,帮助快速缩小范围,找到对应的数据。 详情:使用数据地图根据表名直接查看表详情,快速查阅明细信息,掌握使用规则。 血缘:通过数据地图的血缘分析可以查看每个数据表的来源、去向,并查看每个表及字段的加工逻辑。 父主题: 查看工作空间数据地图
  • 字段类型 当您执行新建表、逆向数据库或模型转换等操作时,如果系统默认的数据类型或不同数据源之间的数据类型映射关系无法满足需求,您可以增加、删除或修改数据类型。系统默认的数据类型不支持删除。 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后再单击“字段类型”页签。 在“字段类型”页面,您可以查看数据类型及不同数据源之间的数据类型映射关系,其中“创建人”为SYSTEM的类型为系统默认的字段类型。 类型分组说明如下: DEFAULT:通用数据类型,未指定数据源类型时建表所用的字段类型。例如,新建逻辑模型的表时,就是使用DEFAULT分组中的数据类型。 DLI :DLI连接类型的表的数据类型。 DWS:DWS连接类型的表的数据类型。 MRS _HIVE:MRS_HIVE连接类型的表的数据类型。 MRS_SPARK:MRS_SPARK连接类型Hudi表的数据类型。 POSTGRESQL:POSTGRESQL连接类型的表的数据类型。 CLICKHOUSE:CLICKHOUSE连接类型的表的数据类型。 MYSQL:MYSQL连接类型的表的数据类型。 ORACLE:ORACLE连接类型的表的数据类型。 DORIS:DORIS连接类型的表的数据类型。 图5 字段类型 管理字段类型。 新建类型 如果要增加数据类型,单击“新建”按钮。在弹出对话框中,配置如下参数,然后单击“确定”。 图6 新建类型 表1 基本配置 参数名称 说明 类型分组 选择新建类型所属的类型分组。 名称 数据类型的名称。只能包含中文、英文字母、数字、左右括号、空格和下划线,且以中文或英文字母开头。 编码 数据类型的编码,必须为数仓支持的类型。只能包含大写字母,下划线,数字,且以大写字母或下划线开头。 所属域 选择新建类型所属的域。 是否有拓展 对于某些数据类型,需要设定数据的长度范围时,可以打开“是否有拓展”开关,并配置对应的拓展。 例如高精度数据类型DECIMAL(p,s),需要分别指定小数的最大位数(p)和小数位的数量(s),则数据类型DECIMAL的默认拓展可填写为“(10,2)”,指的是小数点左侧的位数为2,小数点右侧的最大位数为10-2=8;又如数据类型VACHAR也需要指定位数,当默认拓展填写为“10”,指的是最大长度为10字符。 数仓对应类型 选择新建类型所映射连接的数据类型。 DEFAULT 选择新建类型所映射的DEFAULT连接的数据类型。 CLICKHOUSE 选择新建类型所映射的CLICKHOUSE连接的数据类型。 DLI 选择新建类型所映射的DLI连接的数据类型。 DWS 选择新建类型所映射的DWS连接的数据类型。 MRS_HIVE 选择新建类型所映射的MRS_HIVE连接的数据类型。 MRS_SPARK 选择新建类型所映射的MRS_SPARK连接的数据类型。 MYSQL 选择新建类型所映射的MYSQL连接的数据类型。 ORACLE 选择新建类型所映射的ORACLE连接的数据类型。 POSTGRESQL 选择新建类型所映射的POSTGRESQL连接的数据类型。 DORIS 选择新建类型所映射的DORIS连接的数据类型。 编辑类型 在字段类型列表中,找到需要编辑的字段类型,然后单击按钮进行编辑,参数说明请参见表1。 删除类型 仅支持对于用户新建的数据类型进行删除操作。“创建人”为SYSTEM的类型为系统默认的字段类型,不支持删除操作。 在字段类型列表中,找到需要删除的字段类型,单击按钮,然后在弹出对话框中单击“确定”完成删除。 重置 单击“字段类型”页面底部的“重置”按钮,可恢复系统默认配置。
  • 模型配置 当您在主题设计、模型设计等过程中,如果需要进行如下操作,您可以通过本页面进行配置: 增加主题别名、表模型别名、字段别名。 启用密级。 设置长度。 增加表的自定义字段。 增加属性的自定义字段。 图4 模型配置 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后再单击“模型配置”页签。 启用别名。在“模型配置”页面,您可以增加别名。 选项说明如下: 主题设计:选择之后,在新建、编辑主题时,必须输入别名。 表模型:选择之后,在新建、编辑表时,必须输入别名。会影响业务表、维度(维度表)、事实表和汇总表等。 字段:选择之后,在新建、编辑表字段时,必须输入别名。 启用密级。默认开启该字段。 名称长度:设置表名称和属性名称的长度。 表自定义项。在新建、编辑表时,可以在表的基本设置中设置自定义的字段。会影响业务表、维度(维度表)、事实表和汇总表等。 属性自定义项。在新建、编辑表字段时,可以在表字段中设置自定义的属性。会影响业务表、维度(维度表)、事实表和汇总表等。
  • DDL模板管理 在DataArts Studio数据架构中,支持修改各种类型(例如DLI、POSTGRESQL、DWS、Hive、SPARK、DORIS)的表或DLI视图的DDL模板。如果您需要将已创建的某一类型的表生成其他数据源的DDL语句,您就可以根据目标数据源的DDL语法,修改该类型的表的DDL模板。 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后再单击“DDL模板管理”。 在“DDL模板管理”页面,您可以配置各种类型的表或DLI视图的DDL模板,您可以参考该页面中的“填写说明”修改DDL模板,修改完成后单击“确定”。如果单击“重置”可恢复默认设置。 如图7所示,说明如下: 新建:可查看或编辑新建表或DLI视图的DDL模板。 更新:可查看或编辑更新表或DLI视图的DDL模板。 删除:可查看或编辑删除表或DLI视图的DDL模板。 衍生指标:可以查看或编辑衍生指标的SQL模板。 复合指标:可以查看或编辑复合指标的SQL模板。 汇总表:可以查看或编辑汇总表的SQL模板。 “参考数据”区域:显示了一个表详情的示例,示例中的变量定义了表的详细信息。 “模板代码编辑”区域:可以编辑DDL模板。如果您需要将所选类型的表,生成其他类型的数据库的DDL语句,您可以根据目标数据源的DDL语法,修改DDL模板。 “预览结果”区域:编辑DDL模板后,可以预览按模板生成的DDL语句。 图7 DDL模板管理
  • 指标配置 在数据架构控制台,单击左侧导航树中的“配置中心”,然后再选择“指标配置”页签。 管理业务指标 新建指标 单击业务指标自定义项旁的新建按钮,或在已有指标的情况下,单击操作列的图标新增指标。完成后配置如下参数,然后单击“保存”。 图9 新建指标 表3 新建指标参数说明 参数名称 说明 选项名称 自定义指标名称。不超过100字符。 选项名称(英文) 自定义指标英文名称。不超过100字符。 可选值 设置自定义指标在创建业务指标时的可选值。 是否必填 设置自定义指标在创建业务指标时是否为必填项 描述 自定义指标的描述。不超过200字符。 调整指标排序 在有多个指标的情况下,可以通过操作列调整指标的排序。单击图标可进行指标的上移或者下移,双击图标可以输入序号将当前行移动到指定位置。 图10 调整指标排序 图11 移动到指定位置 删除指标 如果需要删除自定义指标,单击操作列的图标就可删除该指标。 图12 删除指标 完成自定义指标的设置后,在新建业务指标界面和完成发布的业务指标的基本信息界面,会显示已保存的自定义指标。 图13 新建业务指标 图14 基本信息界面
  • 编码规则 在数据架构控制台,单击左侧导航树中的“配置中心”,然后再选择“编码规则”页签。 管理编码规则。 添加编码规则 如果需要自定义编码规则,在“编码规则”列表上方,单击“添加”,在弹出对话框中,配置如下参数,然后单击“确定”。 图8 添加编码规则 表2 添加编码规则说明 参数名称 说明 类型 选择编码规则的类型,当前支持如下六种: 业务指标,逻辑实体,逻辑属性, 数据标准、码表、业务对象。 生效范围 生效范围默认是全局。可以选择 主题、流程、码表、数据标准下一级路径。 系统规则 是否为系统规则。自定义的编码规则系统预置为否,不能修改。 编码规则 采用前缀+数字码的方式,不能修改。 前缀 可以是“英文字符”+“数字”的方式,但不能以数字结尾。支持修改。 数字码 支持顺序码和随机码两种方式。 起始码 数字码范围的起始值。 结束码 数字码范围的终止值。 编码示例 根据前缀动态修改后,可以更新展示。 删除编码规则 如果需要删除自定义编码规则,在“编码规则”列表勾选待删除的编码规则,单击列表上方的“删除”,在弹出对话框中,单击“是”即可删除。 系统预置的六个编码规则(逻辑实体、 数据标准、逻辑属性、业务指标、码表、业务对象),不可以删除。 编辑编码规则 如果需要修改自定义编码规则,单击“编码规则”列表中待修改编码规则的“编辑”,弹出“修改编码规则”对话框,修改完成后,单击“确定”。
  • 标准模板管理 标准模板管理用于自定义数据标准的默认选项。首次进入数据架构的数据标准页面,也会显示制定数据标准模板的页面。 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后再单击“标准模板管理”。 如下图所示,在“可选项”中勾选所需要的选项,单击“新建”按钮可以添加自定义项,完成后单击“确定”。 标准模板支持“是否可搜索”、“是否必填”、“可选值”。 保存模板后,在新建数据标准时需要设置此处模板中所选中选项的参数值。 首次进入数据架构的数据标准页面,可选项默认选取“数据长度”和“描述”,其他选项请按需求勾选。 添加自定义项时,支持同时添加中文与英文的自定义项。 图1 标准模板管理
  • 功能配置 功能配置用于自定义数据架构中的各项功能。 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后再单击“功能配置”。 在功能配置页面,可根据用户具体的功能需求配置参数,然后单击“确定”。如果单击“重置”可恢复默认设置。 图2 功能配置 模型设计业务流程步骤:此处勾选的流程,在关系建模或维度建模的对象发布上线时,系统会依次自动执行。一般建议全部勾选。 创建表:当数据架构中的表发布并通过审核后,系统将自动在对应的数据源中创建相应的物理表。在表删除时,系统也会自动删除物理表。 同步技术资产:关系建模或维度建模中的表发布后,同步表到数据目录模块作为技术资产,同时同步标签到对应技术资产。 若开启“同步技术资产”功能,您必须预先在DataArts Studio数据目录模块中对表所属的数据库创建数据目录采集任务并采集成功,否则同步技术资产将会执行失败。 同步业务资产:同步逻辑模型到数据目录,作为业务资产,同时同步标签到对应业务资产。 资产关联:实现业务资产与技术资产的关联。业务资产与技术资产同步完成后,在数据目录模块中查看对应的业务资产或技术资产详情时,可以看到相关联的技术资产或业务资产。该功能要求表信息中含有数据源信息。 创建质量作业:当关系建模或维度建模中的表发布并通过审核后,对于关联数据标准(包含数据长度或允许值)或关联质量规则的表,系统将自动在DataArts Studio数据质量模块中创建一个质量作业。 创建数据开发作业:汇总表发布后,自动生成端到端的全流程数据开发作业。 发布数据服务API:汇总表发布后,自动生成数据服务API,此功能仅当数据服务支持汇总表的数据连接时生效。 数据落库:码表维度发布后,会自动将码表的数值填入维度表中。 模型下线流程:选择当模型下线时,是否同步删除技术资产、业务资产、质量作业、数据开发作业。 数据表更新方式:当数据架构中的表在发布后进行了修改,是否同时更新数据库中的表。默认为“不更新”,但在配置中心可以依据自己的需求设置更新动作。依据DDL模板, 在模板里面配置对应的更新语句即可。 不更新:不更新数据库中的表。 依据DDL更新模板:依据DDL模板管理中配置的DDL更新模板,更新数据库中的表,但能否更新成功是由底层数仓引擎的支持情况决定的。由于不同类型的数仓支持的更新表的能力不同,在数据架构中所做的表更新操作,如果数仓不支持,则无法确保数据库中的表和数据架构中的表是一致的。例如,DLI类型的表更新操作不支持删除表字段,如果在数据架构的表中删除了表字段,则无法在数据库中相应的删除表字段。 如果线下数据库支持更新表结构语法,可以在DDL模板配置对应语法, 之后更新操作就可以通过DataArts Studio管控;如果线下数据库不支持更新, 那只有通过重建这种方式更新。 重建数据表:先删除数据库中已有的表,再重新创建表。选择该选项可以确保数据库中的表和数据架构中的表是一致的,但是由于会先删除表,因此一般建议只在开发设计阶段或测试阶段使用该选项,产品上线后不推荐使用该选项。 数据表不区分大小写:对于选中的连接类型,在发布相应类型的表时,同步技术资产时名称将不区分大小写,找到相同的即认为已存在。 物理表同步业务资产:在开启了“同步业务资产”且没有创建逻辑实体的前提下,为了避免物理表发布会覆盖同名逻辑表的情况发生,可主动关闭该选项,物理表发布后不会同步业务资产,只会进行资产关联。数据资产关联前会进行业务资产查找,如没有查找到相应的业务资产则会报错并结束资产关联。 业务表映射使用新版本:系统默认为新版本映射。新版本映射功能支持join等操作,推荐使用新版本映射。 汇总表自动汇聚:发布衍生指标或复合指标时,系统支持自动生成汇总表,一个统计维度对应一个汇总表。自动生成的汇总表可在汇总表页面下选择“自动汇聚”页签查看。 数据标准是否重名:默认关闭,打开后数据标准可以重名。 导入数据标准时自动创建目录:默认开启,打开后导入数据标准时可以自动创建目录。 是否启用公共层:开关打开后,可将当前空间转化为公共层空间。公共层空间的码表和数据标准会共享给所有普通空间;普通空间可以查询、引用公共层空间的码表和数据标准,但无法进行新增、修改和删除的操作。 当前空间转换为公共层空间后,不支持回退为普通空间,其他普通空间也不能再转换为公共层空间。请谨慎选择您的公共层空间。 公共层空间无法反向查询、引用或操作普通空间的数据。 时间限定生成使用动态表达式:开关打开后,则使用动态时间表达式;如开关关闭,则默认使用原有的静态时间表达式。例如时间限定设置为最近30天:如果使用静态表达式,如果当前为9月,生成的最近30天的数据就是8月,即使当前到了10月,生成的数据还是8月,不能自动更新;如果使用动态表达式,当前到了10月,最近30天自动更新为9月。动态表达式时间函数举例如下所示: 图3 动态表达式 如果第一次打开开关,需重置DDL模板中的衍生指标。如之前有修改过DDL模板,请先做好模板备份。重置模板会将原来修改过的模板覆盖,重置后需要将原来修改的内容重新编辑一次。 信息架构页面表查询时,主题支持并列查询个数:默认为1个,暂不支持设置。 码表数据落库并行行数:码表维度发布后,设置将码表的数值填入维度表中时的并行操作行数。当码表数值较多时,会导致落库失败,可以适当调小该参数。 码表生成质量规则:下拉选择即可。当码表的数据量较小时,选择“枚举值校验”即可;否则选择“字段一致性校验”。 选择“字段一致性校验”的前提是码表在数据库中存在,通过以下方式生成的码表会在数据库中存在: 逆向数据库生成的码表。 新建维度时,通过码表维度发布的码表。 汇总表引用维度字段命名规则:设置汇总表在新建、编辑、导入和生成时的命名规则,可选“维度表名_维度属性名”和“维度属性名”。 导出文件类型:数据架构导出功能支持“xlsx”和“et”两种格式。逻辑模型、物理模型、维度(表)、事实表、汇总表以及其他导出均支持两种格式。 生成数据服务API:包含“按汇总表整表生成单个API”和“按汇总表指标生成数个API”两种生成数据服务API的方式。
  • 主题流程配置 主题流程配置用于自定义主题设计中的主题层级和自定义属性。系统默认有三个层级,从上到下分别命名为主题域分组(L1)、主题域(L2)、业务对象(L3)。您可以自定义的主题层级限制在最大7层,最少2层。自定义属性最多可以配置10个。 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后再单击“主题流程配置”页签。 在主题层级区域,可对主题层级进行增加、删除和编辑操作。 在“操作”栏中单击按钮可以添加自定义主题层级项,完成后单击“确定”。 在“操作”栏中单击按钮可以删除主题层级项,完成后单击“确定”。 除最后一层业务对象外,其它层级均可以通过单击对应的层级名称实现“编辑”操作。 在主题自定义项区域,可对属性进行增加、删除和编辑操作。 在“主题自定义项”右侧,单击“新建”可新增一条自定义属性。主题自定义项属性的可选值支持一次性可输入多个值,可选值不可重复。 在“操作”栏中单击按钮可以删除一条自定义属性。 单击对应的属性名称(中文)、属性名称(英文)、可选值,是否必填,描述,实现“编辑”操作。 在流程层级数区域,可设置流程设计的层数,层级最小3级,最大7级。
  • 业务指标监控简介 当前,数据架构有完善的指标设计和管理能力,建议您后续使用数据架构的业务指标功能,数据质量的业务指标监控模块即将下线。 业务指标监控模块是对业务指标进行质量管理的工具。 为了进行业务指标监控,您可以先自定义SQL指标,然后通过指标的逻辑表达式定义规则,最后新建并调度运行业务场景。通过业务场景的运行结果,您可以判断业务指标是否满足质量规则。业务场景的运行结果说明如下: 正常:表示实例正常结束,且执行结果符合预期。 告警:表示实例正常结束,但执行结果不符合预期。 异常:表示实例未正常结束。 --:表示实例正在运行中,无执行结果。 业务指标监控主界面包括以下功能模块。 功能 说明 总览 默认首页是总览页面,显示了业务场景实例的运行状态和告警状态。 主要包括以下几部分内容: 快速入门,介绍业务指标监控的业务流。 最近7天内的业务场景实例运行分布情况、实例告警运行分布情况。 可选周期内的告警趋势图、业务场景看板图、指标看板图。 指标管理 指标管理是业务指标监控的核心功能模块,是配置指标的主要入口。 规则管理 规则管理是配置规则的主要入口,支持通过指标的逻辑表达式定义规则。 业务场景管理 业务场景可以认为是业务指标质量作业,将创建的规则组进行调度运行。 运维管理 运维管理用于查看业务场景运行状态,处理运维问题。其中我的订阅中显示了所有订阅的任务运行情况。 父主题: 业务指标监控(待下线)
  • 编辑复合指标 在数据架构控制台,单击左侧导航树的“技术指标”,然后选择“复合指标”页签,进入复合指标页面。 图2 复合指标 在复合指标列表中,找到需要编辑的复合指标,单击“编辑”,进入“编辑复合指标”页面。 根据实际需要修改配置参数。参数说明请参见表1。 在页面下方,单击“试运行”按钮,然后在弹出框中单击“试运行”按钮,测试所设置的复合指标是否可以正常运行。 如果试运行失败,请根据错误提示定位错误原因,将配置修改正确后,再单击“试运行”按钮进行重试。 如果试运行成功,单击“发布”,提交发布审核。 在弹出框中单击“确认提交”,提交审核。
  • 查看模型视图 当您在关系模型中完成表的新建后,就可以通过列表视图和模型视图两种形式查看表模型。关系模型页面默认显示为列表视图,您可以切换为模型视图进行查看。 在DataArts Studio数据架构控制台,单击左侧导航栏的“关系建模”进入关系建模页面。 在页面的中间栏位,从最上方的下拉列表中找到所需要的物理模型,或者从“数仓规划”选择一个物理模型单击进入,在主题目录中选中一个对象。 单击表名称进入后,选择“关系图”页签,查看模型视图。 图1 模型视图 在模型视图中支持以下功能: 双击表名,可显示表的详情信息。 单击左上角的“导出图片”按钮,可以将模型视图导出成图片。 在右上角的搜索框中输入表名,可以快速找到的所要查看的表。 功能依次为放大、缩小、全屏、物理模型/逻辑模型切换、刷新、显示画布。
  • 适用场景 当您进行作业开发时,如果某些任务的参数有差异、但处理逻辑全部一致,在这种情况下您可以通过For Each节点避免重复开发作业。 For Each节点可指定一个子作业循环执行,并通过数据集对子作业中的参数进行循环替换。关键参数如下: 子作业:选择需要循环执行的作业。 数据集:即不同子任务的参数值的集合。可以是给定的数据集,如“[['1'],['3'],['2']]”;也可以是EL表达式如“#{Job.getNodeOutput('preNodeName')}”,即前一个节点的输出值。 子作业参数:参数名即子作业中定义的变量;参数值一般配置为数据集中的某组数据,每次运行中会将参数值传递到子作业以供使用。例如参数值填写为:#{Loop.current[0]},即将数据集中每行数据的第一个数值遍历传递给子作业。 For Each节点举例如图1所示 。从图中可以看出,子作业“foreach”中的参数名为“result”,参数值为一维数组数据集“[['1'],['3'],['2']] ”的遍历(即第一次循环为1,第二次循环为3,第三次循环为2)。 图1 for each节点
  • 使用案例 案例场景 因数据规整要求,需要周期性地将多组DLI源数据表数据导入到对应的DLI目的表,如表1所示。 表1 需要导入的列表情况 源数据表名 目的表名 a_new a b_2 b c_3 c d_1 d c_5 e b_1 f 如果通过SQL节点分别执行导入脚本,需要开发大量脚本和节点,导致重复性工作。在这种情况下,我们可以使用For Each节点进行循环作业,节省开发工作量。 配置方法 准备源表和目的表。为了便于后续作业运行验证,需要先创建DLI源数据表和目的表,并给源数据表插入数据。 创建DLI表。您可以在DataArts Studio数据开发中,新建DLI SQL脚本执行以下SQL命令,也可以在 数据湖探索 (DLI)服务控制台中的SQL编辑器中执行以下SQL命令: /* 创建数据表 */CREATE TABLE a_new (name STRING, score INT) STORED AS PARQUET;CREATE TABLE b_2 (name STRING, score INT) STORED AS PARQUET;CREATE TABLE c_3 (name STRING, score INT) STORED AS PARQUET;CREATE TABLE d_1 (name STRING, score INT) STORED AS PARQUET;CREATE TABLE c_5 (name STRING, score INT) STORED AS PARQUET;CREATE TABLE b_1 (name STRING, score INT) STORED AS PARQUET;CREATE TABLE a (name STRING, score INT) STORED AS PARQUET;CREATE TABLE b (name STRING, score INT) STORED AS PARQUET;CREATE TABLE c (name STRING, score INT) STORED AS PARQUET;CREATE TABLE d (name STRING, score INT) STORED AS PARQUET;CREATE TABLE e (name STRING, score INT) STORED AS PARQUET;CREATE TABLE f (name STRING, score INT) STORED AS PARQUET; 给源数据表插入数据。您可以在DataArts Studio数据开发模块中,新建DLI SQL脚本执行以下SQL命令,也可以在 数据湖 探索(DLI)服务控制台中的SQL编辑器中执行以下SQL命令: /* 源数据表插入数据 */INSERT INTO a_new VALUES ('ZHAO','90'),('QIAN','88'),('SUN','93');INSERT INTO b_2 VALUES ('LI','94'),('ZHOU','85');INSERT INTO c_3 VALUES ('WU','79');INSERT INTO d_1 VALUES ('ZHENG','87'),('WANG','97');INSERT INTO c_5 VALUES ('FENG','83');INSERT INTO b_1 VALUES ('CEHN','99'); 准备数据集数据。您可以通过以下方式之一获取数据集: 您可以将表1数据导入到DLI表中,然后将SQL脚本读取的结果作为数据集。 您可以将表1数据保存在OBS的 CS V文件中,然后通过DLI SQL或DWS SQL创建OBS外表关联这个CSV文件,然后将OBS外表查询的结果作为数据集。DLI创建外表请参见OBS输入流,DWS创建外表请参见创建外表。 您可以将表1数据保存在HDFS的CSV文件中,然后通过HIVE SQL创建Hive外表关联这个CSV文件,然后将HIVE外表查询的结果作为数据集。MRS创建外表请参见创建表。 本例以方式1进行说明,将表1中的数据导入到DLI表(Table_List)中。您可以在DataArts Studio数据开发模块中,新建DLI SQL脚本执行以下SQL命令导入数据,也可以在数据湖探索(DLI)服务控制台中的SQL编辑器中执行以下SQL命令: /* 创建数据表TABLE_LIST,然后插入表1数据,最后查看生成的表数据 */CREATE TABLE Table_List (Source STRING, Destination STRING) STORED AS PARQUET;INSERT INTO Table_List VALUES ('a_new','a'),('b_2','b'),('c_3','c'),('d_1','d'),('c_5','e'),('b_1','f');SELECT * FROM Table_List; 生成的Table_List表数据如下: 图2 Table_List表数据 创建要循环运行的子作业ForeachDemo。在本次操作中,定义循环执行的是一个包含了DLI SQL节点的任务。 进入DataArts Studio数据开发模块选择“作业开发”页面,新建作业ForeachDemo,然后选择DLI SQL节点,编排图3所示的作业。 DLI SQL的语句中把要替换的变量配成${}这种参数的形式。在下面的SQL语句中,所做的操作是把${Source}表中的数据全部导入${Destination}中,${fromTable}、${toTable} 就是要替换的变量参数。SQL语句为: INSERT INTO ${Destination} select * from ${Source}; 此处不能使用EL表达式#{Job.getParam("job_param_name")} ,因为此表达式只能直接获取当前作业里配置的参数的value,并不能获取到父作业传递过来的参数值,也不能获取到工作空间里面配置的全局变量,作用域仅为本作业。 而表达式${job_param_name},既可以获取到父作业传递过来的参数值,也可以获取到全局配置的变量。 图3 循环执行子作业 配置完成SQL语句后,在子作业中配置作业参数。此处仅需要配置参数名,用于主作业ForeachDemo_master中的For Each节点识别子作业参数;参数值无需填写。 图4 配置子作业参数 配置完成后保存作业。 创建For Each节点所在的主作业ForeachDemo_master。 进入DataArts Studio数据开发模块选择“作业开发”页面,新建数据开发主作业ForeachDemo_master。选择DLI SQL节点和For Each节点,选中连线图标并拖动,编排图5所示的作业。 图5 编排作业 配置DLI SQL节点属性,此处配置为SQL语句,语句内容如下所示。DLI SQL节点负责读取DLI表Table_List中的内容作为数据集。 SELECT * FROM Table_List; 图6 DLI SQL节点配置 配置For Each节点属性。 子作业:子作业选择步骤2已经开发完成的子作业“ForeachDemo”。 数据集:数据集就是DLI SQL节点的Select语句的执行结果。使用EL表达式#{Job.getNodeOutput('preDLI')},其中preDLI为前一个节点的名称。 子作业参数:用于将数据集中的数据传递到子作业以供使用。Source对应的是数据集Table_List表的第一列,Destination是第二列,所以配置的EL表达式分别为#{Loop.current[0]}、#{Loop.current[1]}。 图7 配置For Each节点 配置完成后保存作业。 测试运行主作业。 单击主作业画布上方的“测试运行”按钮,测试作业运行情况。主作业运行后,会通过For Each节点自动调用运行子作业。 单击左侧导航栏中的“实例监控”,进入实例监控中查看作业运行情况。等待作业运行成功后,就能查看For Each节点生成的子作业实例,由于数据集中有6行数据,所以这里就对应产生了6个子作业实例。 图8 查看作业实例 查看对应的6个DLI目的表中是否已被插入预期的数据。您可以在DataArts Studio数据开发模块中,新建DLI SQL脚本执行以下SQL命令导入数据,也可以在数据湖探索(DLI)服务控制台中的SQL编辑器中执行以下SQL命令: /* 查看表a数据,其他表数据请修改命令后运行 */SELECT * FROM a; 将查询到的表数据与给源数据表插入数据步骤中的数据进行对比,可以发现数据插入符合预期。 图9 目的表数据