搜索_华为云

队列权限管理 - 数据湖探索 DLI

队列权限管理管理员用户和队列的所有者拥有队列的所有操作权限，且根据业务需求对其他用户分配队列的操作权限，确保用户之间的作业互不影响，保障作业的执行性能。本节操作介绍队列权限管理的相关操作。操作须知管理员用户和队列的所有者拥有所有权限，不需要进行权限设置且其他用户无法修改其队列权限。

帮助中心 > 数据湖探索 DLI > 用户指南 > 创建弹性资源池和队列 > 管理队列
窗口去重 - 数据湖探索 DLI
窗口去重 - 数据湖探索 DLI

对于流式查询，与普通去重不同，窗口去重只在窗口的最后返回结果数据，不会产生中间结果。它会清除不需要的中间状态。因此，窗口去重查询在用户不需要更新结果时，性能较好。通常，窗口去重直接用于窗口表值函数上。另外，它可以用于基于窗口表值函数的操作。比如窗口聚合，窗口TopN和窗口关联。窗口Top-N的语法和普通的Top-N相同。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 数据操作语句DML > 窗口
配置DLI程序包权限 - 数据湖探索 DLI

配置DLI程序包权限针对不同用户，可以通过权限设置分配不同的程序包组或程序包，不同用户之间的作业效率互不影响，保障作业性能。管理员用户、程序包组拥有程序包组的所有权限。不需要进行权限设置，且其他用户无法修改其程序包组权限。管理员用户、程序包的所有者拥有程序包的所有权限。不需

 帮助中心 > 数据湖探索 DLI > 用户指南 > DLI常用管理操作 > 管理Jar作业程序包
DLI作业开发流程 - 数据湖探索 DLI

jar包或者软件）、私有能力等内置到自定义镜像中，可以改变Spark作业和Flink作业的容器运行环境，增强作业的功能、性能。例如，在自定义镜像中加入机器学习相关的Python包或者C库，可以通过这种方式帮助用户实现功能扩展。创建自定义镜像请参考使用自定义镜像增强作业运行环境。

帮助中心 > 数据湖探索 DLI > 用户指南
窗口Top-N - 数据湖探索 DLI
窗口Top-N - 数据湖探索 DLI

Top-N 会在窗口结束后清除不需要的中间状态。窗口 Top-N 适用于用户不需要每条数据都更新Top-N结果的场景，相对普通Top-N来说性能更好。通常，窗口 Top-N 直接用于窗口表值函数（Windowing TVFs）窗口 Top-N 可以用于基于窗口表值函数（Windowing

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 数据操作语句DML > 窗口
配置SQL防御规则 - 数据湖探索 DLI

QL输入语句质量良莠不齐、SQL问题难定位、大SQL语句消耗资源过多等。低质量的SQL会对数据分析平台系统带来不可预料的冲击，影响系统的性能或者平台稳定性。 DLI在Spark SQL引擎中增加SQL防御能力，基于用户可理解的SQL防御策略，实现对典型大SQL、低质量SQL的主

 帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交SQL作业
使用HetuEngine on Hudi - 数据湖探索 DLI

使用HetuEngine on Hudi HetuEngine是高性能的交互式SQL分析及数据虚拟化引擎，它与大数据生态无缝融合，实现海量数据秒级交互式查询，并支持跨源跨域统一访问，使能数据湖内、湖间、湖仓一站式SQL融合分析。 HetuEngine对Hudi仅支持select操

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI中使用Hudi开发作业
对象存储OBS结果表 - 数据湖探索 DLI

FileSystem sink用于将数据输出到分布式文件系统HDFS或者对象存储服务OBS等文件系统。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。考虑到输入流可以是无界的，每个桶中的数据被组织成有限大小的Part文件。完全可以配置为基于时间的方式往桶中写入数据，比如

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > 对象存储OBS
流生态作业开发指引 - 数据湖探索 DLI

流生态作业开发指引流生态系统基于Flink和Spark双引擎，完全兼容Flink/Storm/Spark开源社区版本接口，并且在此基础上做了特性增强和性能提升，为用户提供易用、低时延、高吞吐的数据湖探索。数据湖探索的流生态开发包括云服务生态、开源生态和自拓展生态：云服务生态 DLI服务在Stream

帮助中心 > 数据湖探索 DLI > 开发指南 > Flink作业开发指南
功能总览 - 数据湖探索 DLI
功能总览 - 数据湖探索 DLI

使用DLI提交SQL作业查询OBS数据导出SQL作业结果 OBS 2.0支持 DLI Spark作业 DLI在开源Spark基础上进行了大量的性能优化与服务化改造，兼容Apache Spark生态和接口，执行批处理任务。 DLI还支持使用Spark作业访问DLI元数据，具体请参考《数据湖探索开发指南》。

帮助中心 > 数据湖探索 DLI > 功能总览
FileSystem结果表 - 数据湖探索 DLI

FileSystem sink用于将数据输出到分布式文件系统HDFS或者对象存储服务OBS等文件系统。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。考虑到输入流可以是无界的，每个桶中的数据被组织成有限大小的Part文件。完全可以配置为基于时间的方式往桶中写入数据，比如

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建结果表
DLI中的Spark组件与MRS中的Spark组件有什么区别？ - 数据湖探索 DLI

DLI中的Spark组件与MRS中的Spark组件有什么区别？ DLI和MRS都支持Spark组件，但在服务模式、接口方式、应用场景和性能特性上存在一些差异。 DLI服务的Spark组件是全托管式服务，用户对Spark组件不感知，仅仅可以使用该服务，且接口为封装式接口。 DLI的

 帮助中心 > 数据湖探索 DLI > 常见问题 > DLI产品咨询类
DLI Spark 3.1.1版本停止服务（EOS）公告 - 数据湖探索 DLI

1版本优势特性说明 Native性能加速 Spark查询语句性能提升。元数据访问性能提升提升Spark在处理大数据时的元数据访问性能，提高数据处理流程效率。提升OBS committer小文件写性能提升对象存储服务（OBS）在处理小文件写入时的性能，提高数据传输效率。动态Executor

帮助中心 > 数据湖探索 DLI > 服务公告 > 产品公告
DLI Spark 2.3.2版本停止服务（EOS）公告 - 数据湖探索 DLI

1版本优势特性说明 Native性能加速 Spark查询语句性能提升。元数据访问性能提升提升Spark在处理大数据时的元数据访问性能，提高数据处理流程效率。提升OBS committer小文件写性能提升对象存储服务（OBS）在处理小文件写入时的性能，提高数据传输效率。动态Executor

帮助中心 > 数据湖探索 DLI > 服务公告 > 产品公告
如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

的融合机器学习相关的大数据分析程序。传统上，通常是直接基于pip把Python库安装到执行机器上，对于DLI这样的Serverless化服务用户无需也感知不到底层的计算资源，那如何来保证用户可以更好的运行他的程序呢？ DLI服务在其计算资源中已经内置了一些常用的机器学习的算法库（具体可以参考”数据湖探索

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
Spark 2.4.5版本说明 - 数据湖探索 DLI

UI支持火焰图 Spark UI支持绘制火焰图。优化SQL作业NOT IN语句查询性能 NOT IN语句查询性能提升。优化Multi-INSERT语句查询性能 Multi-INSERT语句查询性能提升。父主题：版本支持公告

 帮助中心 > 数据湖探索 DLI > 服务公告 > 版本支持公告
Hudi表索引设计规范 - 数据湖探索 DLI

ucket索引或者状态索引。实时入湖都是需要分钟内或者分钟级的高性能入湖，索引的选择会影响到写Hudi表的性能。在性能方面各个索引的区别如下： Bucket索引优点：写入过程中对主键进行hash分桶写入，性能比较高，不受表的数据量限制。Flink和Spark引擎都支持，Fli

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表设计规范
成长地图 - 数据湖探索 DLI
成长地图 - 数据湖探索 DLI

SQL作业相关问题如何理解DLI分区表的列赋权？如何避免字符码不一致导致的乱码？ OBS表压缩率较高更多跨源连接相关问题 Flink作业如何进行性能调优？更多 Spark作业相关问题如何查看DLI Spark作业的实际资源使用情况 Spark队列操作OBS表如何设置AK/SK？更多

 帮助中心 > 数据湖探索 DLI > 成长地图
ORDER BY - 数据湖探索 DLI
ORDER BY - 数据湖探索 DLI

HetuEngine遵循该规范，并删除该子句的冗余用法，以避免对性能造成负面影响。例如在执行INSERT语句时，ORDER BY子句不会对插入的数据产生影响，是个冗余的操作，会对整个INSERT语句的整体性能产生负面影响，因此HetuEngine会跳过ORDER BY操作。 ORDER

帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法 > DQL 语法
创建Bucket索引表调优 - 数据湖探索 DLI

），这种表通常可以通过数据的创建时间来做分区以保证最佳读写性能。维度表数据量一般整表数据规模较小，以更新数据为主，新增较少，表数据量比较稳定，且读取时通常需要全量读取做join之类的ETL计算，因此通常使用非分区表性能更好。分区表的分区键不允许更新，否则会产生重复数据。例外场景：超大维度表和超小事实表

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Bucket调优示例

总条数： 104

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

队列权限管理 - 数据湖探索 DLI

窗口去重 - 数据湖探索 DLI

配置DLI程序包权限 - 数据湖探索 DLI

DLI作业开发流程 - 数据湖探索 DLI

窗口Top-N - 数据湖探索 DLI

配置SQL防御规则 - 数据湖探索 DLI

使用HetuEngine on Hudi - 数据湖探索 DLI

对象存储OBS结果表 - 数据湖探索 DLI

流生态作业开发指引 - 数据湖探索 DLI

功能总览 - 数据湖探索 DLI

FileSystem结果表 - 数据湖探索 DLI

DLI中的Spark组件与MRS中的Spark组件有什么区别？ - 数据湖探索 DLI

DLI Spark 3.1.1版本停止服务（EOS）公告 - 数据湖探索 DLI

DLI Spark 2.3.2版本停止服务（EOS）公告 - 数据湖探索 DLI

如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

Spark 2.4.5版本说明 - 数据湖探索 DLI

Hudi表索引设计规范 - 数据湖探索 DLI

成长地图 - 数据湖探索 DLI

ORDER BY - 数据湖探索 DLI

创建Bucket索引表调优 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线