检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
获取DLI基础镜像。 使用Dockerfile将作业运行需要的依赖(文件、jar包或者软件)打包到镜像中,生成自定义镜像。 将镜像发布到SWR(容器镜像服务)中。 在DLI服务作业编辑页面选择自己生成的镜像,运行作业。 查看作业执行情况。 获取DLI基础镜像 请根据队列的架构类型选择相同类型的基础镜像。
STRING类型转换为其他原生类型、FLOAT类型转换为TIMESTAMP类型、其他原生类型转换为DECIMAL类型等。 STRUCT数据类型不支持double,boolean数据类型。 ARRAY示例 创建表“array_test”,将“id”参数定义为“ARRAY<INT>”
原生数据类型 DLI支持原生数据类型,请参见表1。 表1 原生数据类型 数据类型 描述 存储空间 范围 OBS表支持情况 DLI表支持情况 INT 有符号整数 4字节 -2147483648~2147483647 是 是 STRING 字符串 - - 是 是 FLOAT 单精度浮点型
数据来源:使用DLI服务提供API,将OBS对应路径的数据导入到DLI。 具体API请参考《导入数据》。 存储数据:DLI中支持创建OBS表,该类型表在DLI服务中只有元数据,实际数据在该表对应的OBS路径中。 创建OBS表的SQL语法请参考《使用DataSource语法创建OBS表》和《使用Hive语法创建OBS表》。
配置DLI访问其他云服务的委托权限 DLI委托概述 创建DLI自定义委托权限 常见场景的委托权限策略 典型场景DLI委托权限配置示例
资源。 区域(Region):从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用Region和专属Region,通用Region指面向公共租户提供通用云服务的Region;专属Regio
创建DLI自定义委托 OBS 2.0支持 自定义镜像 DLI支持容器部署的集群。在容器集群中,Spark作业和Flink作业相关组件都运行在容器中,通过下载DLI提供的自定义镜像,可以改变Spark作业和Flink作业的容器运行环境。例如,在自定义镜像中加入机器学习相关的Python包或者
但首尾不能含有空格。 表4 columns参数 参数名称 是否必选 参数类型 说明 column_name 是 String 列的名称。 type 是 String 列的数据类型。具体支持的数据类型请参考数据类型。 description 否 String 列的描述信息。 is_partition_column
创建DLI队列。在“队列类型”中选择“通用队列”,即Spark作业的计算资源。具体请参考创建队列。 准备一个linux弹性云服务器ECS,用于安装DLI Livy。 ECS需要放通30000至32767端口、8998端口。具体操作请参考添加安全组规则。 ECS需安装Java JDK,JDK版本建议为1
huaweicloud.sdk.core.auth.ICredentialProvider接口的getCredentials()返回值中。 返回类型为com.huaweicloud.sdk.core.auth.BasicCredentials。 仅支持获取AK、SK、SecurityToken。
feature 否 String 队列的镜像类型。支持以下两种类型: basic:基础型 ai:AI增强型(仅SQL的x86_64专属队列支持选择) 默认值为“basic”。 说明: AI增强型即队列加载了AI镜像,该镜像在基础镜像的基础上集成了AI相关的算法包。 resource_type
批处理作业所属代理用户(资源租户)。 kind 否 String 批处理作业类型,只支持spark类型参数。 queue 否 String 批处理作业所在队列。 image 否 String 自定义镜像。格式为:组织名/镜像名:镜像版本。 当用户设置“feature”为“custom”时,该参
“所属队列”选择CCE队列时,设置该参数。表示用户作业使用的Spark镜像类型,具体说明如下: 基础型:DLI提供的基础镜像,运行非AI相关作业时选择“基础型”。 自定义镜像:自定义的Spark镜像,需要选择“容器镜像服务”中设置的镜像名称及版本。 依赖jar包(--jars) 运行spark
feature 否 String 作业特性。表示用户作业使用的Spark镜像类型。 basic:表示使用DLI提供的基础Spark镜像。 custom:表示使用用户自定义的Spark镜像。 ai:表示使用DLI提供的AI镜像。 spark_version 否 String 作业使用spa
feature 否 String 队列使用的镜像类型。支持以下两种类型: basic:基础型 ai:AI增强型(仅SQL的x86_64专属队列支持选择) 默认值为“basic”。 说明: AI增强型即队列加载了AI镜像,该镜像在基础镜像的基础上集成了AI相关的算法包。 tags 否
作业特性。表示用户作业使用的Spark镜像类型。 custom:表示使用用户自定义的Spark镜像。 spark_version 否 String 作业使用Spark组件的版本号。 如果当前Spark组件版本为2.3.2,则不填写该参数。 image 否 String 自定义镜像。格式为:组织名/镜像名:镜像版本。
1所示。 表3 自定义模板列表参数 参数 参数说明 名称 模板名称,只能由英文、中文、数字、中划线和下划线组成,并且长度为1~64个字符。 类型 模板类型。 Flink SQL作业模板 Flink OpenSource SQL作业模板 描述 模板的相关描述,且长度为0~512个字符。 创建时间
您还可以通过自定义镜像增强DLI的计算环境,通过下载DLI提供的基础镜像再按需制作自定义镜像,将作业运行需要的依赖(文件、jar包或者软件)、私有能力等内置到自定义镜像中,可以改变Spark作业和Flink作业的容器运行环境,增强作业的功能、性能。 例如,在自定义镜像中加入机器学习相
Flink镜像的版本。 image 否 String 自定义镜像。格式为:组织名/镜像名:镜像版本。 当用户设置“feature”为“custom”时,该参数生效。用户可通过与“feature”参数配合使用,指定作业运行使用自定义的Flink镜像。关于如何使用自定义镜像,请参考《数据湖探索用户指南》。
'', 'password' = '' ); 参数说明 表1 参数说明 参数 是否必选 默认值 数据类型 说明 connector 是 无 String connector类型,需配置为'gaussdb'。 url 是 无 String jdbc连接地址。“url”参数中的ip地址请使用DWS的内网地址。