数据治理中心 DATAARTS STUDIO-作业开发流程

时间:2024-10-10 20:51:39

作业开发流程

作业开发功能提供如下能力:
  • 提供图形化设计器,支持拖拉拽方式快速构建数据处理工作流。
  • 预设数据集成、计算&分析、资源管理、数据监控、其他等多种任务类型,通过任务间依赖完成复杂数据分析处理。
  • 支持多种作业调度方式。
  • 支持导入和导出作业。
  • 支持作业状态运维监控和作业结果通知。
  • 提供编辑锁定能力,支持多人协同开发场景。
  • 支持作业的版本管理能力,支持生成保存版本和提交版本。

    保存版本时,一分钟内多次保存只记录一次版本。对于中间数据比较重要时,可以通过“新增版本”按钮手动增加保存版本。

  • 支持单击右键,可快速复制作业名称,同时可以快速的关闭已打开的作业页签。
  • MRS API连接模式下,单任务MRS Spark SQL和MRS Hive SQL运行完以后,在执行结果中查看运行日志,增加一键跳转MRS Yarn查看日志的链接。
  • 企业模式下,开发作业时,单击页面上方的“前往发布”跳转到任务发布页面。
  • 支持对“已提交”、“未提交”、“已调度”和“未调度”的作业进行筛选。同时未提交的作业通过红色进行标识,未调度的作业通过黄色进行标识。
  • 单任务作业支持SQL编辑器风格配置。单击“风格配置”,可以对编辑器、操作栏、注释模板进行配置、以及查询SQL脚本编辑器可使用的快捷键。
  • 单任务SQL查询结果展示支持表格和列表两种展示方式。单击“风格配置”,在“编辑器配置”里面可以对SQL查询结果展示进行配置。
  • 支持通过“责任人”和“更新时间”进行过滤查询,方便快速过滤出最近更新的作业。
  • 作业开发支持细粒度权限管控,在数据安全模块对数据开发作业目录权限管控策略进行配置。
开发作业前,您可以通过图1了解数据开发模块作业开发的基本流程。
图1 作业开发流程
  1. 新建作业:当前提供两种作业类型:批处理和实时处理,分别应用于批量数据处理和实时连接性数据处理,其中批处理作业还支持Pipeline和单节点作业两种模式,具体请参见新建作业
  2. 开发作业:基于新建的作业,进行作业开发,您可以进行编排、配置节点。具体请参见开发Pipeline作业
  3. 调度作业:配置作业调度任务。具体请参见调度作业
    • 如果您的作业是批处理作业,您可以配置作业级别的调度任务,即以作业为一个整体进行调度,支持单次调度、周期调度、事件驱动调度三种调度方式。具体请参见配置作业调度任务(批处理作业)
    • 如果您的作业是实时处理作业,您可以配置节点级别的调度任务,即每一个节点可以独立调度,支持单次调度、周期调度、事件驱动调度三种调度方式。具体请参见配置节点调度任务(实时作业)
  4. 提交版本并解锁:作业调度配置完成后,您需要提交版本并解锁,提交版本并解锁后才能用于调度运行,便于其他开发者修改。具体请参见提交版本
  5. (可选)管理作业:作业开发完成后,您可以根据需要,进行作业管理。具体请参见(可选)管理作业
  6. 发布作业。企业模式下需要发布作业,具体请参见发布作业任务
support.huaweicloud.com/usermanual-dataartsstudio/dataartsstudio_01_0432.html