检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
操作请参考方法一:通过Maven安装DLI SDK依赖。 在集成开发环境中导入JAR文件,适用于使用Eclipse作为集成开发环境的项目。具体操作请参考方法二:通过在Eclipse中导入JAR文件安装SDK。 获取DLI SDK 在“DLI SDK DOWNLOAD”页面,单击选
导出数据(废弃) 功能介绍 该API用于从DLI表中导出数据到文件。 该API为异步操作。 目前只支持从DLI表导出数据到OBS中,且导出的路径必须指定到文件夹级别。OBS路径中不支持逗号,且其中的桶名不能以正则格式“.[0-9]+(.*)”结尾,即,若桶名包含“.”, 则最后一个“
功能描述 修改已存在的分区表或非分区表的生命周期。 当第一次开启生命周期时,会扫描表/分区会扫描路径下的表数据文件,更新表/分区的LAST_ACCESS_TIME,耗时与分区数和文件数相关。 约束限制 表生命周期处于公测阶段,如果有需要请联系客服申请开通白名单。 表生命周期功能支持Hi
功能描述 修改已存在的分区表或非分区表的生命周期。 当第一次开启生命周期时,会扫描表/分区会扫描路径下的表数据文件,更新表/分区的LAST_ACCESS_TIME,耗时与分区数和文件数相关。 约束限制 表生命周期处于公测阶段,如果有需要请联系客服申请开通白名单。 表生命周期功能支持Hi
自定义函数 概述 DLI支持三种自定义函数: UDF:自定义函数,支持一个或多个输入参数,返回一个结果值。 UDTF:自定义表值函数,支持一个或多个输入参数,可返回多行多列。 UDAF:自定义聚合函数,将多条记录聚合成一个值。 POM依赖 <dependency> <groupId>org
自定义函数 概述 DLI支持三种自定义函数: UDF:自定义函数,支持一个或多个输入参数,返回一个结果值。 UDTF:自定义表值函数,支持一个或多个输入参数,可返回多行多列。 UDAF:自定义聚合函数,将多条记录聚合成一个值。 POM依赖 <dependency> <groupId>org
</dependency> </dependencies> 图5 pom文件中添加配置 在工程路径的“src > main > java”文件夹上鼠标右键,选择“New > Package”,新建Package和类文件。 图6 新建Package和类文件 Package根据需要定义,本示例定义为:“com
支持的包类型如下: JAR:用户jar文件 PyFile:用户Python文件 File:用户文件 ModelFile:用户AI模型文件 OBS路径 选择对应程序包的OBS路径。 说明: 程序包需提前上传至OBS服务中保存。 只支持选择文件。 分组设置 可选择“已有分组”,“创建新分组”或“不分组”。
自定义函数 概述 DLI支持三种自定义函数: UDF:自定义函数,支持一个或多个输入参数,返回一个结果值。 UDTF:自定义表值函数,支持一个或多个输入参数,可返回多行多列。 UDAF:自定义聚合函数,将多条记录聚合成一个值。 POM依赖 <dependency>
自定义函数 概述 DLI支持三种自定义函数: UDF:自定义函数,支持一个或多个输入参数,返回一个结果值。 UDTF:自定义表值函数,支持一个或多个输入参数,可返回多行多列。 UDAF:自定义聚合函数,将多条记录聚合成一个值。 POM依赖 <dependency>
Elasticsearch,DCS,DDS,DIS,DMS,DWS,EdgeHub,MRS HBase,MRS Kafka,开源Kafka,文件系统,OBS,RDS,SMN 表1 数据格式和支持的输入输出流 数据格式 支持的输入流 支持的输出流 Avro - OBS输出流 Avro_merge
<PY_FILES> Spark应用依赖的Python程序文件名称,存在多个时使用","分割。Python程序文件文件需要提前保存在client.properties文件中localFilePath配置的本地路面中。 -s,--skip-upload-resources <all | app | deps>
col_name_list 格式 无。 说明 字段列表,可由一个或多个col_name构成,多个col_name之间用逗号分隔。 父主题: 标示符
col_name_list 格式 无。 说明 字段列表,可由一个或多个col_name构成,多个col_name之间用逗号分隔。 父主题: 标示符
添加Python包后,找不到指定的Python环境 添加Python3包后,找不到指定的Python环境。 可以通过在conf文件中,设置spark.yarn.appMasterEnv.PYSPARK_PYTHON=python3,指定计算集群环境为Python3环境。 目前,新
INTERSECT 功能描述 INTERSECT返回多个查询结果的交集。 语法格式 1 select_statement INTERSECT select_statement; 关键字 INTERSECT:返回多个查询结果的交集,且每一个SELECT语句返回的列数必须相同,列的
'obs://....') using json:指定使用 JSON 格式。 options:用于设置表的选项。 path:指定OBS中JSON文件的路径。 父主题: SQL作业开发类
INTERSECT 功能描述 INTERSECT返回多个查询结果的交集。 语法格式 1 select_statement INTERSECT select_statement; 关键字 INTERSECT:返回多个查询结果的交集,且每一个SELECT语句返回的列数必须相同,列的
LOCATION 'obs_path'。 若新增分区指定的路径包含子目录(或嵌套子目录),则子目录下面的所有文件类型及内容也将作为该分区的记录。 您需要保证该分区目录下所有文件类型和文件内容与表的字段一致,否则查询将报错。 您可以在建表语句OPTIONS中设置“multiLevelDir
基本概念 租户 DLI支持多个组织、部门或应用共享使用资源。通过提供一个逻辑实体来统一使用不同资源和服务,这个逻辑实体就是租户。多个不同的租户统称多租户。租户对应公司。一个租户可以创建多个子用户,并可以对不同用户授予不同权限。 项目 各个服务中的一些可以访问的资源集合称为项目。一