搜索_华为云

在Spark SQL作业中使用UDAF - 数据湖探索 DLI

登录DLI管理控制台，单击“数据管理 > 程序包管理”。在“程序包管理”页面，单击右上角的“创建”创建程序包。在“创建程序包”对话框，配置以下参数。包类型：选择“JAR”。 OBS路径：程序包所在的OBS路径。分组设置和组名称根据情况选择设置，方便后续识别和管理程序包。单击“确定”，完成创建程序包。

帮助中心 > 数据湖探索 DLI > 开发指南 > SQL作业开发指南
在Spark SQL作业中使用UDF - 数据湖探索 DLI

登录DLI管理控制台，单击“数据管理 > 程序包管理”。在“程序包管理”页面，单击右上角的“创建”创建程序包。在“创建程序包”对话框，配置以下参数。包类型：选择“JAR”。 OBS路径：程序包所在的OBS路径。分组设置和组名称根据情况选择设置，方便后续识别和管理程序包。单击“确定”，完成创建程序包。

帮助中心 > 数据湖探索 DLI > 开发指南 > SQL作业开发指南
在Spark SQL作业中使用UDTF - 数据湖探索 DLI

登录DLI管理控制台，单击“数据管理 > 程序包管理”。在“程序包管理”页面，单击右上角的“创建”创建程序包。在“创建程序包”对话框，配置以下参数。包类型：选择“JAR”。 OBS路径：程序包所在的OBS路径。分组设置和组名称根据情况选择设置，方便后续识别和管理程序包。单击“确定”，完成创建程序包。

帮助中心 > 数据湖探索 DLI > 开发指南 > SQL作业开发指南
作业相关 - 数据湖探索 DLI
作业相关 - 数据湖探索 DLI

print(job_id) print(status) 在提交导入作业前，可选择通过data_type参数设置导入数据的类型，例如将data_type设置为csv。csv数据的具体格式通可过options参数设置，例如：csv的分隔符，转义符等。当OBS桶目录下有文件夹和

 帮助中心 > 数据湖探索 DLI > SDK参考 > Python SDK > SQL作业相关
有访问OBS对应的桶的权限，但是Spark作业访问时报错 verifyBucketExists on XXXX: status [403] - 数据湖探索 DLI

[403] 该报错信息可能是由于OBS桶被设置为了DLI日志桶，而日志桶不能用于DLI的其他业务功能。您可以按以下操作步骤进行查询：检查该OBS桶是否被设置为了DLI日志桶。在DLI管理控制台的“全局配置 > 作业配置” 页查看对应OBS桶是否被设置为了DLI日志桶，日志桶不能用于DLI的其他业务功能中。

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业运维类
DLI的数据可存储在哪些地方 - 数据湖探索 DLI

CSV ORC Json Avro DLI服务的数据可以存储在哪些地方？ OBS：SQL作业，Spark作业，Flink作业使用的数据均可以存储在OBS服务中，降低存储成本。 DLI：DLI内部使用的是列存的Parquet格式，即数据以Parquet格式存储。存储成本较高。跨源作业可

 帮助中心 > 数据湖探索 DLI > 常见问题 > DLI产品咨询类
在DLI控制台创建数据库和表 - 数据湖探索 DLI

创建数据库的入口有两个，分别在“数据管理”和“SQL编辑器”页面。在“数据管理”页面创建数据库。在管理控制台左侧，单击“数据管理”>“库表管理”。在库表管理页面右上角，单击“创建数据库”可创建数据库。在“SQL编辑器”页面创建数据库。在管理控制台左侧，单击“SQL编辑器”。在左侧导航栏单击“数据库”页签右侧可创建数据库。

帮助中心 > 数据湖探索 DLI > 用户指南 > 创建数据库和表
Hudi表模型设计规范 - 数据湖探索 DLI

Hudi表模型设计规范规则 Hudi表必须设置合理的主键。 Hudi表提供了数据更新和幂等写入能力，该能力要求Hudi表必须设置主键，主键设置不合理会导致数据重复。主键可以为单一主键也可以为复合主键，两种主键类型均要求主键不能有null值和空值，可以参考以下示例设置主键： SparkSQL： //

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表设计规范
导出DLI表数据至OBS中 - 数据湖探索 DLI

页面。在“数据管理”页面导出数据。在管理控制台左侧，单击“数据管理”>“库表管理”。单击需导出数据的表对应的数据库，进入该数据的“表管理”页面。在对应表（DLI表）的“操作”栏中选择“更多”中的“导出”，弹出“导出数据”页面。在“SQL编辑器”页面导出数据。在管理控制台左侧，单击“SQL编辑器”。

帮助中心 > 数据湖探索 DLI > 用户指南 > 创建数据库和表 > 在DLI控制台管理表资源
表相关 - 数据湖探索 DLI
表相关 - 数据湖探索 DLI

表相关创建DLI表 DLI提供创建DLI表的接口。您可以使用该接口创建数据存储在DLI内部的表。示例代码如下： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28

帮助中心 > 数据湖探索 DLI > SDK参考 > Java SDK > SQL作业相关
作业相关 - 数据湖探索 DLI
作业相关 - 数据湖探索 DLI

getName()); } 在提交导入作业前，可选择设置导入数据的格式，如样例所示，调用ImportJob对象的setStorageType接口设置数据存储类型为csv，数据的具体格式通过调用ImportJob对象的setCsvFormatInfo接口进行设置。在提交导入作业前，可选择设置导入数据

 帮助中心 > 数据湖探索 DLI > SDK参考 > Java SDK > SQL作业相关
Spark作业运行大批量数据时上报作业运行超时异常错误 - 数据湖探索 DLI

据倾斜、网络问题或任务过多导致的。解决方案：设置并发数：通过设置合适的并发数，可以启动多任务并行运行，从而提高作业的处理能力。例如访问DWS大批量数据库数据时设置并发数，启动多任务的方式运行，避免作业运行超时。具体并发设置可以参考对接DWS样例代码中的partitionC

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业运维类
配置Hudi数据列默认值 - 数据湖探索 DLI

该特性允许用户在给表新增列时，设置列的默认值。查询历史数据时新增列返回默认值。使用约束新增列在设置默认值前，如果数据已经进行了重写，则查询历史数据不支持返回列的默认值，返回NULL。数据入库、更新、执行Compaction、Clustering都会导致部分或全部数据重写。列的默认值设置要与列的类

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi SQL语法参考
管理DLI全局变量 - 数据湖探索 DLI

什么是全局变量 DLI支持在管理控制台设置全局变量，将作业开发过程中频繁使用的变量设置为全局变量，可以避免在编辑作业过程中重复定义，减少开发与维护成本。通过使用全局变量可以替换长难复杂变量，简化复杂参数，提升SQL语句可读性。本节操作为您介绍如何创建全局变量。创建全局变量在DLI控制台左侧导航栏中单击“全局配置

 帮助中心 > 数据湖探索 DLI > 用户指南 > DLI常用管理操作
将OBS数据导入至DLI - 数据湖探索 DLI

目前预览只显示导入的前十条数据。在“数据管理”>“库表管理”页面，单击数据库名，在表管理界面对应表的“操作”栏选择“更多”中的“表属性”，在弹框的“预览”页签中，可查看导入的数据在“SQL编辑器”的“数据库”页签中，单击数据库名称，进入对应的表列表，鼠标左键单击对应表右侧的，在列表菜单中选择“

帮助中心 > 数据湖探索 DLI > 用户指南 > 创建数据库和表 > 在DLI控制台管理表资源
COMMENT - 数据湖探索 DLI
COMMENT - 数据湖探索 DLI

COMMENT 语法 COMMENT ON TABLE name IS 'comments' 描述设置表的注释信息，可以通过设置注释信息为NULL来删除注释。示例修改表users的注释为“master table”，表的注释语句可以通过show create table tablename语句查看：

帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法 > DDL 语法
创建表时指定表的生命周期 - 数据湖探索 DLI

生命周期单位为天，取值为正整数。生命周期只能在表级别设置，不能在分区级设置。为分区表指定的生命周期，适用于该表所有的分区。生命周期设置后，DLI表和OBS表支持数据备份，OBS表的备份目录需要手工设置。且备份目录应选择在并行文件系统上，备份目录必须和原表目录在同一个桶上，备份目录不能与原表相同目录或者子目录同名。

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 表生命周期管理
Spark 2.4.x与Spark 3.3.x版本在通用队列的差异对比 - 数据湖探索 DLI

Spark 2.4.x与Spark 3.3.x版本在通用队列的差异对比 DLI整理了Spark2.4.x与Spark3.3.x版本在通用队列的差异，便于您了解Spark版本升级后通用队列上运行的作业在适配新版本引擎时的影响。 log4j依赖从1.x版本修改为2.x版本说明： log4j依赖从1

帮助中心 > 数据湖探索 DLI > 服务公告 > 版本支持公告 > Spark 2.4.x与Spark 3.3.x版本差异对比
Hudi存储结构 - 数据湖探索 DLI
Hudi存储结构 - 数据湖探索 DLI

Hudi存储结构 Hudi在写入数据时会根据设置的存储路径、表名、分区结构等属性生成Hudi表。在DLI环境，Hudi表的数据文件存储在OBS上，因此可以通过查看OBS文件检查。如下，展示了Hudi 多级分区COW表存储结构的示意。 hudi_table ├── .hoodie

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > Hudi表概述
使用DLI分析账单消费数据 - 数据湖探索 DLI

通过“费用中心”>“费用账单”进入费用中心。图1 费用账单在“费用账单”界面，选择对应的“账期”，在“按产品汇总”下的搜索框下，选择“产品类型 > 数据湖探索DLI”。在消费汇总中可以发现DLI计算资源使用量消费最多。图2 费用汇总单击“账单详情 > 自定义账单”，单击“维度设置”，选择“按使用量”。“统计

 帮助中心 > 数据湖探索 DLI > 最佳实践

总条数： 400

上一页
1
2
3
4
5
...
20
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在Spark SQL作业中使用UDAF - 数据湖探索 DLI

在Spark SQL作业中使用UDF - 数据湖探索 DLI

在Spark SQL作业中使用UDTF - 数据湖探索 DLI

作业相关 - 数据湖探索 DLI

有访问OBS对应的桶的权限，但是Spark作业访问时报错 verifyBucketExists on XXXX: status [403] - 数据湖探索 DLI

DLI的数据可存储在哪些地方 - 数据湖探索 DLI

在DLI控制台创建数据库和表 - 数据湖探索 DLI

Hudi表模型设计规范 - 数据湖探索 DLI

导出DLI表数据至OBS中 - 数据湖探索 DLI

表相关 - 数据湖探索 DLI

作业相关 - 数据湖探索 DLI

Spark作业运行大批量数据时上报作业运行超时异常错误 - 数据湖探索 DLI

配置Hudi数据列默认值 - 数据湖探索 DLI

管理DLI全局变量 - 数据湖探索 DLI

将OBS数据导入至DLI - 数据湖探索 DLI

COMMENT - 数据湖探索 DLI

创建表时指定表的生命周期 - 数据湖探索 DLI

Spark 2.4.x与Spark 3.3.x版本在通用队列的差异对比 - 数据湖探索 DLI

Hudi存储结构 - 数据湖探索 DLI

使用DLI分析账单消费数据 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线