搜索_华为云

在DLI使用Hudi提交Spark SQL作业 - 数据湖探索 DLI

在DLI使用Hudi提交Spark SQL作业登录DLI管理控制台，选择“SQL编辑器”首进入提交SQL作业的界面。提交SQL作业时需要选择支持Hudi的Spark SQL队列。创建一张Hudi表：将如下的建表语句粘贴至DLI SQL编辑器的输入区域，修改 LOCATION

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI中使用Hudi开发作业
创建数据库 - 数据湖探索 DLI
创建数据库 - 数据湖探索 DLI

创建数据库功能描述创建数据库。语法格式 1 2 3 CREATE [DATABASE | SCHEMA] [IF NOT EXISTS] db_name [COMMENT db_comment] [WITH DBPROPERTIES (property_name=property_value

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 数据库相关
删除数据库 - 数据湖探索 DLI
删除数据库 - 数据湖探索 DLI

删除数据库功能描述删除数据库。语法格式 1 DROP [DATABASE | SCHEMA] [IF EXISTS] db_name [RESTRICT|CASCADE]; 关键字 IF EXISTS：所需删除的数据库不存在时使用，可避免系统报错。注意事项 DATABA

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 数据库相关
怎样查看DLI的执行SQL记录？ - 数据湖探索 DLI

怎样查看DLI的执行SQL记录？场景概述执行SQL作业过程中需要查看对应的记录。操作步骤登录DLI管理控制台。在左侧导航栏单击“作业管理”>“SQL作业”进入SQL作业管理页面。输入作业ID或者执行的语句可以筛选所要查看的作业。父主题： SQL作业开发类

 帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
DLI如何访问OBS桶中的数据 - 数据湖探索 DLI

DLI如何访问OBS桶中的数据创建OBS表。具体语法请参考《数据湖探索SQL语法参考》。添加分区。具体语法请参考《数据湖探索SQL语法参考》。往分区导入OBS桶中的数据。具体语法请参考《数据湖探索SQL语法参考》。查询数据。具体语法请参考《数据湖探索SQL语法参考》。

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
为什么Spark jar 作业一直处于“提交中”？ - 数据湖探索 DLI

为什么Spark jar 作业一直处于“提交中”？ Spark jar 作业一直处于“提交中”可能是队列剩余的CU量不足导致作业无法提交。查看队列的的剩余步骤如下：查看队列CU使用量。点击“云监控服务 > 云服务监控 > 数据探索湖 > 队列监控 > 队列CU使用量” 。

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
Spark如何将数据写入到DLI表中 - 数据湖探索 DLI

Spark如何将数据写入到DLI表中使用Spark将数据写入到DLI表中，主要设置如下参数： fs.obs.access.key fs.obs.secret.key fs.obs.impl fs.obs.endpoint 示例如下： import logging from operator

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
Hudi数据表Compaction规范 - 数据湖探索 DLI

Hudi数据表Compaction规范 mor表更新数据以行存log的形式写入，log读取时需要按主键合并，并且是行存的，导致log读取效率比parquet低很多。为了解决log读取的性能问题，Hudi通过compaction将log压缩成parquet文件，大幅提升读取性能。规则

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表管理操作规范
Hudi表索引设计规范 - 数据湖探索 DLI

Hudi表索引设计规范规则禁止修改表索引类型。 Hudi表的索引会决定数据存储方式，随意修改索引类型会导致表中已有的存量数据与新增数据之间出现数据重复和数据准确性问题。常见的索引类型如下：布隆索引：Spark引擎独有索引，采用bloomfiter机制，将布隆索引内容写入到Parquet文件的footer中。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表设计规范
Hudi表分区设计规范 - 数据湖探索 DLI

Hudi表分区设计规范规则分区键不可以被更新： Hudi具有主键唯一性机制，但在分区表的场景下通常只能保证分区内主键唯一，因此如果分区键的值发生变更后，会导致相同主键的行记录出现多条的情况。在以日期分区的场景，可采用数据的创建时间为分区字段，切记不要采用数据更新时间做分区。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表设计规范
Hudi数据表Clean规范 - 数据湖探索 DLI

Hudi数据表Clean规范 Clean也是Hudi表的维护操作之一，该操作对于MOR表和COW表都需要执行。Clean操作的目的是为了清理旧版本文件（Hudi不再使用的数据文件），这不但可以节省Hudi表List过程的时间，也可以缓解存储压力。规则 Hudi表必须执行Clean。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表管理操作规范
创建OBS表时怎样指定OBS路径 - 数据湖探索 DLI

创建OBS表时怎样指定OBS路径场景概述创建OBS表时，OBS路径须指定到数据库下的具体表层路径。路径格式为：obs://xxx/数据库名/表名。创建OBS表更多语法介绍请参考《数据湖探索Spark SQL语法参考》。正确示例 CREATE TABLE `di_selle

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
为什么SQL作业一直处于“提交中”？ - 数据湖探索 DLI

为什么SQL作业一直处于“提交中”？ SQL作业一直在提交中，有以下几种可能：刚购买DLI队列后，第一次进行SQL作业的提交。需要等待5~10分钟，待后台拉起集群后，即可提交成功。若刚刚对队列进行网段修改，立即进行SQL作业的提交。需要等待5~10分钟，待后台重建集群后，即可提交功。

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
使用Spark-submit提交Spark Jar作业 - 数据湖探索 DLI

使用Spark-submit提交Spark Jar作业 DLI Spark-submit简介 DLI Spark-submit是一个用于提交Spark作业到DLI服务端的命令行工具，该工具提供与开源Spark兼容的命令行。准备工作授权。 DLI使用统一身份认证服务（Identity

帮助中心 > 数据湖探索 DLI > 开发指南 > 使用客户端工具连接DLI
Hudi数据表设计规范 - 数据湖探索 DLI

Hudi数据表设计规范 Hudi表模型设计规范 Hudi表索引设计规范 Hudi表分区设计规范父主题： DLI Hudi开发规范

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范
Hudi数据表管理操作规范 - 数据湖探索 DLI

Hudi数据表管理操作规范 Hudi数据表Compaction规范 Hudi数据表Clean规范 Hudi数据表Archive规范父主题： DLI Hudi开发规范

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范
使用HetuEngine on Hudi - 数据湖探索 DLI

使用HetuEngine on Hudi HetuEngine是高性能的交互式SQL分析及数据虚拟化引擎，它与大数据生态无缝融合，实现海量数据秒级交互式查询，并支持跨源跨域统一访问，使能数据湖内、湖间、湖仓一站式SQL融合分析。 HetuEngine对Hudi仅支持select操

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI中使用Hudi开发作业
怎样查看DLI SQL日志？ - 数据湖探索 DLI

怎样查看DLI SQL日志？场景概述日常运维时需要查看DLI SQL日志。操作步骤在DataArts Studio控制台获取DataArts Studio执行DLI作业的job id。图1 查看日志图2 查找job id 在DLI控制台，选择“作业管理”>“SQL作业”。

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
Spark jar 如何读取上传文件 - 数据湖探索 DLI

Spark jar 如何读取上传文件 Spark可以使用SparkFiles读取 –-file中提交上来的文件的本地路径，即：SparkFiles.get("上传的文件名")。 Driver中的文件路径与Executor中获取的路径位置是不一致的，所以不能将Driver中获取到的

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
执行SQL作业时产生数据倾斜怎么办？ - 数据湖探索 DLI

执行SQL作业时产生数据倾斜怎么办？什么是数据倾斜？数据倾斜是在SQL作业执行中常见的问题，当数据分布不均匀的情况下，一部分计算节点处理的数据量远大于其他节点，从而影响整个计算过程的处理效率。例如观察到SQL执行时间较长，进入SparkUI查看对应SQL的执行状态，如图1所

 帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类

总条数： 287

上一页
1
...
6
7
8
...
15
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在DLI使用Hudi提交Spark SQL作业 - 数据湖探索 DLI

创建数据库 - 数据湖探索 DLI

删除数据库 - 数据湖探索 DLI

怎样查看DLI的执行SQL记录？ - 数据湖探索 DLI

DLI如何访问OBS桶中的数据 - 数据湖探索 DLI

为什么Spark jar 作业一直处于“提交中”？ - 数据湖探索 DLI

Spark如何将数据写入到DLI表中 - 数据湖探索 DLI

Hudi数据表Compaction规范 - 数据湖探索 DLI

Hudi表索引设计规范 - 数据湖探索 DLI

Hudi表分区设计规范 - 数据湖探索 DLI

Hudi数据表Clean规范 - 数据湖探索 DLI

创建OBS表时怎样指定OBS路径 - 数据湖探索 DLI

为什么SQL作业一直处于“提交中”？ - 数据湖探索 DLI

使用Spark-submit提交Spark Jar作业 - 数据湖探索 DLI

Hudi数据表设计规范 - 数据湖探索 DLI

Hudi数据表管理操作规范 - 数据湖探索 DLI

使用HetuEngine on Hudi - 数据湖探索 DLI

怎样查看DLI SQL日志？ - 数据湖探索 DLI

Spark jar 如何读取上传文件 - 数据湖探索 DLI

执行SQL作业时产生数据倾斜怎么办？ - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线