数据湖探索 DLI-DLI作业开发流程:创建执行作业所需的计算资源和元数据
创建执行作业所需的计算资源和元数据
- 使用 DLI 提交作业前,您需要先创建弹性资源池,并在弹性资源池中创建队列,为提交作业准备所需的计算资源。请参考DLI弹性资源池与队列简介创建弹性资源池并添加队列。
您还可以通过 自定义镜像 增强DLI的计算环境,通过下载DLI提供的基础镜像再按需制作自定义镜像,将作业运行需要的依赖(文件、jar包或者软件)、私有能力等内置到自定义镜像中,可以改变Spark作业和Flink作业的容器运行环境,增强作业的功能、性能。
例如,在自定义镜像中加入机器学习相关的Python包或者C库,可以通过这种方式帮助用户实现功能扩展。创建自定义镜像请参考使用自定义镜像增强作业运行环境。
- DLI元数据是SQL作业、Spark作业场景开发的基础。在执行作业前您需要根据业务场景定义数据库和表。
Flink支持动态数据类型,可以在运行时定义数据结构,不需要事先定义元数据。
- 定义您的数据结构,包括数据目录、数据库、表。请参考创建DLI元数据。
- 创建必要的存储桶来存储作业运行过程中产生的临时数据:作业日志、作业结果等。请参考配置DLI作业桶。
- 配置元数据的访问权限。请参考在DLI控制台配置数据库权限、在DLI控制台配置表权限。