数据湖探索 DLI-DLI作业开发流程:使用DLI提交作业

时间:2024-08-30 10:35:42

使用 DLI 提交作业

  • DLI提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务,支持多种作业类型以满足不同的数据处理需求。
    表1 DLI支持的作业类型

    作业类型

    说明

    适用场景

    SQL作业

    适用于使用标准SQL语句进行查询的场景。通常用于结构化数据的查询和分析。

    详细操作请参考创建并提交SQL作业

    适用于 数据仓库 查询、报表生成、OLAP(在线分析处理)等场景。

    Flink作业

    专为实时数据流处理设计,适用于低时延、需要快速响应的场景。适用于实时监控、在线分析等场景。

    • Flink OpenSource作业:DLI提供了标准的连接器(connectors)和丰富的API,便于快速与其他数据系统的集成。详细操作请参考创建Flink OpenSource SQL作业
    • Flink Jar作业:允许用户提交编译为Jar包的Flink作业,提供了更大的灵活性和自定义能力。

      适合需要自定义函数、UDF(用户定义函数)或特定库集成的复杂数据处理场景。可以利用Flink的生态系统,实现高级流处理逻辑和状态管理。详细操作请参考创建Flink Jar作业

    适用于实时数据监控、实时推荐系统等需要快速响应的场景。

    Flink Jar作业适用于需要自定义流处理逻辑、复杂的状态管理或特定库集成的数据分析场景。

    Spark作业

    可通过交互式会话(session)和批处理(batch)方式提交计算任务。通过在DLI提供的弹性资源池队列上提交作业,简化了资源管理和作业调度。

    支持多种数据源和格式,提供了丰富的数据处理能力,包括但不限于SQL查询、机器学习等。详细操作请参考创建Spark作业

    适用于大规模数据处理和分析,如机器学习训练、 日志分析 、大规模数据挖掘等场景。

  • 管理Jar作业的程序包

    DLI允许用户提交编译为Jar包的Flink或Spark作业,Jar包中包含了Jar作业执行所需的代码和依赖信息,用于在数据查询、数据分析、机器学习等特定的数据处理任务中使用。通过DLI管理控制台可以管理作业所需的呈现包。

    在提交Spark Jar和Flink Jar类型的作业前,需要将程序包上传至OBS,然后在DLI服务中创建程序包,并将程序包与数据和作业参数一起提交以运行作业。管理Jar作业程序包

    Spark3.3.1及以上版本、Flink1.15及以上版本在创建Jar作业时支持直接配置OBS中的程序包,不支持读取DLI程序包。

support.huaweicloud.com/usermanual-dli/dli_01_0001.html