数据治理中心 DataArts Studio-步骤6:数据开发处理:作业开发

时间:2025-02-12 15:03:04

作业开发

  1. DataArts Studio 数据开发控制台的左侧导航栏中,单击“作业开发”,然后右键单击“作业”选择菜单“新建目录”,在目录树下根据需要创建作业目录,例如“transport”。
  2. 右键单击作业目录,在弹出菜单中单击新建作业
    图5 作业

  3. 在弹出弹框中输入“作业名称”如demo_taxi_trip_data,“作业类型”选择“批处理”,其他参数保留默认值,单击“确定”完成批作业创建。
    图6 新建批处理作业

  4. 如下图所示,编排批作业。
    图7 编排作业

    每个节点配置如下:

    • source_sdi节点:为 CDM Job节点,通过CDM节点将OBS上的数据导入到 MRS Hive的原始表中。其中CDM集群名称和作业名称分别选择在步骤3:数据集成中的集群和迁移作业(图中仅为示例,以实际集群名和迁移作业名为准)。
      图8 source_sdi节点属性
    • demo_etl_sdi_dwi节点:为MRS Hive SQL节点,用于清洗过滤SDI贴源层上原始表中的数据,将合法数据写入数据架构中DWI层标准出行数据表dwi_taxi_trip_data中。其中,“SQL脚本”请选择在脚本开发中创建的脚本demo_etl_sdi_dwi。
      图9 demo_etl_sdi_dwi节点属性

    • dwi数据监控节点:为Data Quality Monitor节点,用于监控DWI层的标准出行数据的质量。其中,“数据质量规则名称”请选择发布DWI层标准出行数据表时自动生成的质量规则“标准出行数据”
      图10 dwi数据监控节点

    • demo_etl_dwi_dwr_fact节点:为MRS Hive SQL节点,用于将DWI上的原始数据写入DWR层的事实表fact_stroke_order中。其中,“SQL脚本”请选择在脚本开发中创建的脚本demo_etl_dwi_dwr_fact。
      图11 demo_etl_dwi_dwr_fact节点属性

    • 码表维度数据填充节点:为MRS Hive SQL节点,用于将付款方式、费率代码和供应商的集成数据写入DWR层相应的维度表中。其中,“SQL脚本”请选择在脚本开发中创建的脚本demo_taxi_dim_data。
      图12 码表维度数据填充节点属性

    • 等待节点:不做任何事情,等待前面的节点运行结束。
      图13 等待节点
    • 按付款方式汇总统计节点:为MRS Hive SQL节点,按付款方式维度统计汇总截止到当前日期的收入。该节点是从发布汇总表“付款方式统计汇总”时自动生成的数据开发作业(作业名称以demo_dm_db_dws_payment_type_开头,命名规则为“数据库名称_汇总表编码”)中复制的,复制节点后需手动配置该节点的“数据连接”“数据库”参数,“数据库”需设置为事实表所在的数据库。

      数据开发作业自动生成功能需在管理配置中心中勾选“创建数据开发作业”实现。

      图14 按付款方式汇总统计节点属性

    • 按费率汇总统计节点:为MRS Hive SQL节点,按费率代码维度统计汇总截止到当前日期的收入。该节点是从发布汇总表“费率统计汇总”时自动生成的数据开发作业(作业名称以demo_dm_db_dws_rate_code_开头,命名规则为“数据库名称_汇总表编码”)中复制的,复制节点后需手动配置该节点的“数据连接”“数据库”参数,“数据库”需设置为事实表所在的数据库。
      图15 按费率汇总统计节点属性

    • 按供应商汇总统计节点:为MRS Hive SQL节点,按供应商维度统计汇总截止到当前日期各时间维度的收入。该节点是从发布汇总表“供应商统计汇总”时自动生成的数据开发作业(作业名称以demo_dm_db_dws_vendor_开头,命名规则为“数据库名称_汇总表编码”)中复制的,复制节点后需手动配置该节点的“数据连接”“数据库”参数,“数据库”需设置为事实表所在的数据库。
      图16 按供应商汇总统计节点属性

    • Dummy_finish节点:不做任何事情,作为作业结束的标记。
      图17 Dummy_finish节点
  5. 作业编排好之后,您可以通过测试运行来测试作业编排是否正确。
  6. 您可以根据需要,配置作业的调度方式。单击右侧“调度配置”页签,展开配置页面。当前支持单次调度、周期调度和事件驱动调度作业。
    图18 配置作业的调度方式

  7. 调度配置完成后,您需要单击“保存”按钮保存作业并单击“提交”按钮提交作业版本。然后单击“执行调度”来启动作业的调度。
    图19 保存并提交作业与执行调度

support.huaweicloud.com/qs-dataartsstudio/dataartsstudio_04_0008.html