搜索_华为云

SQL作业运行慢如何定位 - 数据湖探索 DLI

参考图10可以看到数据倾斜时，单个任务的shuffle数据远大于其他Task的数据，导致该任务耗时时间变长。图10 数据倾斜示例图数据倾斜原因和解决： Shuffle的数据倾斜基本是由于join中的key值数量不均衡导致。对join连接条件进行group by 和count，统计每个连接条件的key值的数量。示例如下：

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
扫描量计费 - 数据湖探索 DLI
扫描量计费 - 数据湖探索 DLI

TABLE等语句）、管理分区语句、失败的查询语句无需付费。取消的查询，按取消查询时扫描的总数据量计费。若计算任务超时或失败，则当次计算不收取费用。数据的存储方式（包括格式，是否压缩）对计算费用有直接的影响。假设Parquet格式文件为原CSV文件大小的1/4，则数据扫描费用为原CSV文件扫描费用的1/4。

帮助中心 > 数据湖探索 DLI > 计费说明
已购买套餐包，为什么仍然产生按需计费？ - 数据湖探索 DLI

餐包资源的使用情况？如果套餐包额度已超出，产生按需计费为正常现象；如果套餐包额度未超出，请继续排查判断是否产生了套餐包未涵盖的计费项。判断是否产生了套餐包未涵盖的计费项 DLI的计费项分为计算资源计费、数据存储量计费、数据扫描量计费。如果购买的套餐包资源未覆盖使用的计费项，产生按需计费属于正常现象：

帮助中心 > 数据湖探索 DLI > 计费说明 > 计费相关问题
获取项目ID - 数据湖探索 DLI
获取项目ID - 数据湖探索 DLI

获取项目ID 操作场景在调用接口的时候，部分URL中需要填入项目ID，所以需要获取到项目ID。有如下两种获取方式：调用API获取项目ID 从控制台获取项目ID 调用API获取项目ID 项目ID可以通过调用查询指定条件下的项目信息API获取。获取项目ID的接口为“GET https:

帮助中心 > 数据湖探索 DLI > API参考 > 公共参数
SDK获取与安装 - 数据湖探索 DLI

SDK获取与安装 Python SDK安装方式本节操作介绍安装Python SDK的操作指导。获取DLI SDK 在“DLI SDK DOWNLOAD”页面，单击选择所需的SDK链接，即可获取对应的SDK安装包。 “dli-sdk-python-x.x.x.zip”压缩包，解压后目录结构如下：

帮助中心 > 数据湖探索 DLI > SDK参考 > Python SDK > Python SDK环境配置
查询Flink作业日志 - 数据湖探索 DLI

DLI作业要由用户主账户统一设置及修改，子用户无权限。不配置DLI作业桶无法查看作业日志。您可以通过配置桶的生命周期规则，定时删除桶中的对象或者定时转换对象的存储类别。 DLI的作业桶设置后请谨慎修改，否则可能会造成历史数据无法查找。前提条件配置前，请先购买OBS桶或并行文件系

 帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Flink作业 > 管理Flink作业
pyspark样例代码 - 数据湖探索 DLI

南》中的“选择依赖资源参数说明”。通过API提交作业请参考《数据湖探索API参考》>《创建批处理作业》中“表2-请求参数说明”关于“modules”参数的说明。完整示例代码通过DataFrame API访问认证用的password硬编码到代码中或者明文存储都有很大的安全风

 帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接DWS
SHALLOW CLONE - 数据湖探索 DLI
SHALLOW CLONE - 数据湖探索 DLI

SHALLOW CLONE 命令在特定版本创建现有Delta表的浅拷贝。被克隆的信息包括：schema、分区信息、数据文件路径等。对克隆表所做的任何更改都只会影响克隆本身，而不会影响源表，只要它们不触及源数据。注意克隆表可能仍会指向源表的数据文件，当源表做了vacuum操作时，可能导致克隆表找不到文件。

帮助中心 > 数据湖探索 DLI > Delta SQL语法参考 > Delta SQL语法参考 > Delta DDL语法说明
在Spark SQL作业中使用UDTF - 数据湖探索 DLI

上传Jar包到OBS OBS控制台将生成的UDTF函数Jar包文件上传到OBS目录下。 5 创建DLI的UDTF函数 DLI控制台在DLI控制台的SQL作业管理界面创建使用的UDTF函数。 6 验证和使用DLI的UDTF函数 DLI控制台在DLI作业中使用创建的UDTF函数。操作步骤新

 帮助中心 > 数据湖探索 DLI > 开发指南 > SQL作业开发指南
pyspark样例代码 - 数据湖探索 DLI

业，页面显示“批处理作业提交成功”说明Spark作业提交成功，可以在Spark作业管理页面查看提交的作业的状态和日志。创建Spark作业时选择的“所属队列”为创建跨源连接时所绑定的队列。如果选择spark版本为2.3.2（即将下线）或2.4.5提交作业时，需要指定Module模块，名称为：sys

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接RDS
插入数据 - 数据湖探索 DLI
插入数据 - 数据湖探索 DLI

db_name 需要执行INSERT命令的表所在数据库的名称。 table_name 需要执行INSERT命令的表的名称。 part_spec 指定详细的分区信息。若分区字段为多个字段，需要包含所有的字段，但是可以不包含对应的值，系统会匹配上对应的分区。单表分区数最多允许100000个。

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 数据相关
CREATE TABLE语句 - 数据湖探索 DLI

Epoch 以来的经过的时间。返回的 watermark 只有当其不为空且其值大于之前发出的本地 watermark 时才会被发出（以保证 watermark 递增）。每条记录的 watermark 生成表达式计算都会由框架完成。框架会定期发出所生成的最大的 watermark

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > SQL语法约束与定义 > DDL语法定义
如何给子用户授权查看Flink作业？ - 数据湖探索 DLI

Service Administrator权限的账号，登录DLI控制台。在“作业管理”>“Flink作业”页面找到对应的作业。在对应作业的“操作”栏中选择“更多”>“权限管理”。图1 Flink作业权限管理在“授权”页面输入需要授权的用户名，勾选需要的权限。确认后，被授权用户就可以查看该作业，并且执行对应操作。

帮助中心 > 数据湖探索 DLI > 常见问题 > Flink作业类 > Flink作业咨询类
LOAD数据到OBS外表报错：IllegalArgumentException: Buffer size too small. size - 数据湖探索 DLI

while trying to read 143805 bytes 问题原因上述报错可能原因是当前导入的文件数据量较大，同时因为spark.sql.shuffle.partitions参数设置的并行度过大，导致缓存区大小不够而导入数据报错。解决方案建议可以尝试调小spark.sql.shuffle

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业运维类
费用账单 - 数据湖探索 DLI
费用账单 - 数据湖探索 DLI

请参见流水与明细账单。图3 查询数据存储的资源账单查看数据扫描量的资源账单 DLI的default队列采用数据扫描量的计费方式。扫描量计费=单价*扫描量数据（GB）。怎样查看DLI的数据扫描量？您可以在费用中心查询DLI数据扫描量的资源账单。在控制台顶部菜单栏中选择“费用与成本

 帮助中心 > 数据湖探索 DLI > 计费说明
配置Flink作业权限 - 数据湖探索 DLI

赋权：当前用户可将作业的权限赋予其他用户。回收：当前用户可回收其他用户具备的该作业的权限，但不能回收该作业所有者的权限。查看其他用户具备的权限：当前用户可查看其他用户具备的该作业的权限。为已有权限的用户赋予权限或回收权限。在对应作业“用户权限信息”区域的用户列表中，选择需要

 帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Flink作业
Spark 3.3.1版本说明 - 数据湖探索 DLI

提升对象存储服务（OBS）在处理小文件写入时的性能，提高数据传输效率。动态Executor shuffle数据优化提升资源扩缩容的稳定性，当shuffle文件不需要时清理Executor。支持配置小文件合并使用SQL过程中，生成的小文件过多时，会导致作业执行时间过长，且查询

 帮助中心 > 数据湖探索 DLI > 服务公告 > 版本支持公告
CLEANARCHIVE - 数据湖探索 DLI
CLEANARCHIVE - 数据湖探索 DLI

表1 参数描述参数描述 tableIdentifier Hudi表的名称。 tablelocation Hudi表的存储路径。 hoodie.archive.file.cleaner.policy 清理归档文件的策略：目前仅支持KEEP_ARCHIVED_FILES_BY_SIZ

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi SQL语法参考 > Hudi DML语法说明
弹性资源池权限管理 - 数据湖探索 DLI

回收：当前用户可回收其他用户具备的该弹性资源池的权限，但不能回收该弹性资源池所有者的权限。查看其他用户具备的权限：当前用户可查看其他用户具备的该弹性资源池的权限。为已有权限的用户赋予权限或回收权限。在对应弹性资源池“权限信息”区域的用户列表中，选择需要修改权限的用户，在“操作”列单击“权限设置”。

帮助中心 > 数据湖探索 DLI > 用户指南 > 创建弹性资源池和队列 > 管理弹性资源池
VACUUM - 数据湖探索 DLI
VACUUM - 数据湖探索 DLI

Delta 管理的所有文件，并删除不再处于表事务日志最新状态且超过保留期阈值的数据文件。默认阈值为 7 天。注意事项 RETAIN num HOURS表示保留期阈值，建议设置为至少 7 天。如果对 Delta 表运行VACUUM，则将无法再回头查看在指定数据保留期之前创建的版本。 Delta

帮助中心 > 数据湖探索 DLI > Delta SQL语法参考 > Delta SQL语法参考 > Delta DML语法说明

总条数： 529

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

SQL作业运行慢如何定位 - 数据湖探索 DLI

扫描量计费 - 数据湖探索 DLI

已购买套餐包，为什么仍然产生按需计费？ - 数据湖探索 DLI

获取项目ID - 数据湖探索 DLI

SDK获取与安装 - 数据湖探索 DLI

查询Flink作业日志 - 数据湖探索 DLI

pyspark样例代码 - 数据湖探索 DLI

SHALLOW CLONE - 数据湖探索 DLI

在Spark SQL作业中使用UDTF - 数据湖探索 DLI

pyspark样例代码 - 数据湖探索 DLI

插入数据 - 数据湖探索 DLI

CREATE TABLE语句 - 数据湖探索 DLI

如何给子用户授权查看Flink作业？ - 数据湖探索 DLI

LOAD数据到OBS外表报错：IllegalArgumentException: Buffer size too small. size - 数据湖探索 DLI

费用账单 - 数据湖探索 DLI

配置Flink作业权限 - 数据湖探索 DLI

Spark 3.3.1版本说明 - 数据湖探索 DLI

CLEANARCHIVE - 数据湖探索 DLI

弹性资源池权限管理 - 数据湖探索 DLI

VACUUM - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线