搜索_华为云

创建Spark作业 - 数据湖探索 DLI
创建Spark作业 - 数据湖探索 DLI

应jar包文件的OBS路径，格式为：obs://桶名/文件夹路径名/包名。依赖python文件（--py-files）运行spark作业依赖的py-files。可以输入Python文件名称，也可以输入Python文件对应的OBS路径，格式为：obs://桶名/文件夹路径名/文件名。

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Spark作业
Hudi Clustering操作说明 - 数据湖探索 DLI

i表。为了能够在文件大小和入湖速度之间进行权衡，Hudi提供了一个hoodie.parquet.small.file.limit配置来设置最小文件大小。用户可以将该配置设置为“0”，以强制新数据写入新的文件组，或设置为更高的值以确保新数据被“填充”到现有小的文件组中，直到达到指定大小为止，但其会增加摄取延迟。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
VACUUM - 数据湖探索 DLI
VACUUM - 数据湖探索 DLI

VACUUM 命令功能 VACUUM命令用于删除表目录中不由 Delta 管理的所有文件，并删除不再处于表事务日志最新状态且超过保留期阈值的数据文件。默认阈值为 7 天。注意事项 RETAIN num HOURS表示保留期阈值，建议设置为至少 7 天。如果对 Delta 表运

 帮助中心 > 数据湖探索 DLI > Delta SQL语法参考 > Delta SQL语法参考 > Delta DML语法说明
Hudi数据表Clean规范 - 数据湖探索 DLI

Plan能够被成功执行，Compaction Plan只是记录了Hudi表中哪些Log文件要和哪些Parquet文件合并，所以最重要的地方在于保证Compaction Plan在被执行的时候它需要合并的文件都存在。而Hudi表中只有Clean操作可以清理文件，所以建议Clean的触发阈值（hoodie.cleaner

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表管理操作规范
SDK的获取与安装 - 数据湖探索 DLI

操作请参考方法一：通过Maven安装DLI SDK依赖。在集成开发环境中导入JAR文件，适用于使用Eclipse作为集成开发环境的项目。具体操作请参考方法二：通过在Eclipse中导入JAR文件安装SDK。获取DLI SDK 在“DLI SDK DOWNLOAD”页面，单击选

 帮助中心 > 数据湖探索 DLI > SDK参考 > Java SDK > Java SDK环境配置
导出数据（废弃） - 数据湖探索 DLI

导出数据（废弃）功能介绍该API用于从DLI表中导出数据到文件。该API为异步操作。目前只支持从DLI表导出数据到OBS中，且导出的路径必须指定到文件夹级别。OBS路径中不支持逗号，且其中的桶名不能以正则格式“.[0-9]+(.*)”结尾，即，若桶名包含“.”，则最后一个“

帮助中心 > 数据湖探索 DLI > API参考 > 历史API > SQL作业相关API（废弃）
修改表生命周期的时间 - 数据湖探索 DLI

功能描述修改已存在的分区表或非分区表的生命周期。当第一次开启生命周期时，会扫描表/分区会扫描路径下的表数据文件，更新表/分区的LAST_ACCESS_TIME，耗时与分区数和文件数相关。约束限制表生命周期处于公测阶段，如果有需要请联系客服申请开通白名单。表生命周期功能支持Hi

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 表生命周期管理
CLEAN_FILE - 数据湖探索 DLI
CLEAN_FILE - 数据湖探索 DLI

table_name 需要清理无效数据文件的Hudi表的表名，必选。 op_type 命令运行模式，可选，默认值为dry_run，取值：dry_run、repair、undo、query。 dry_run：显示需要清理的无效数据文件。 repair：显示并清理无效的数据文件。 undo：恢复已清理的数据文件

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi SQL语法参考 > Hudi CALL COMMAND语法说明
创建DLI程序包 - 数据湖探索 DLI

支持的包类型如下： JAR：用户jar文件 PyFile：用户Python文件 File：用户文件 ModelFile：用户AI模型文件 OBS路径选择对应程序包的OBS路径。说明：程序包需提前上传至OBS服务中保存。只支持选择文件。分组设置可选择“已有分组”，“创建新分组”或“不分组”。

帮助中心 > 数据湖探索 DLI > 用户指南 > DLI常用管理操作 > 管理Jar作业程序包
在Spark SQL作业中使用UDTF - 数据湖探索 DLI

</dependency> </dependencies> 图5 pom文件中添加配置在工程路径的“src > main > java”文件夹上鼠标右键，选择“New > Package”，新建Package和类文件。图6 新建Package和类文件 Package根据需要定义，本示例定义为：“com

帮助中心 > 数据湖探索 DLI > 开发指南 > SQL作业开发指南
自定义函数 - 数据湖探索 DLI
自定义函数 - 数据湖探索 DLI

自定义函数概述 DLI支持三种自定义函数： UDF：自定义函数，支持一个或多个输入参数，返回一个结果值。 UDTF：自定义表值函数，支持一个或多个输入参数，可返回多行多列。 UDAF：自定义聚合函数，将多条记录聚合成一个值。 POM依赖 <dependency>

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 函数
ARCHIVELOG - 数据湖探索 DLI
ARCHIVELOG - 数据湖探索 DLI

"obs://bucket/path/h1"; 注意事项首先需要执行clean命令，在clean命令清理了历史的数据文件后，Timeline上与清理的数据文件对应的Instant才允许归档。不管是否进行compaction操作，至少会保留hoodie.compact.inline

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi SQL语法参考 > Hudi DML语法说明
col - 数据湖探索 DLI
col - 数据湖探索 DLI

col_name_list 格式无。说明字段列表，可由一个或多个col_name构成，多个col_name之间用逗号分隔。父主题：标示符

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 标示符
DESCRIBE DATABASE| SCHEMA - 数据湖探索 DLI

schema_name 描述 DATABASE和SCHEMA在此处是等价的，可互换的，它们有这相同的含义。该语法用于显示SCHEMA的名称、注释、还有它在文件系统上的根路径。可选项EXTENDED可以用来显示SCHEMA的数据库属性。示例 CREATE SCHEMA web; DESCRIBE

帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法 > 辅助命令语法
使用Spark-submit提交Spark Jar作业 - 数据湖探索 DLI

<PY_FILES> Spark应用依赖的Python程序文件名称，存在多个时使用","分隔。Python程序文件文件需要提前保存在client.properties文件中localFilePath配置的本地路面中。 -s,--skip-upload-resources <all | app | deps>

帮助中心 > 数据湖探索 DLI > 开发指南 > 使用客户端工具连接DLI
SHOW_HOODIE_PROPERTIES - 数据湖探索 DLI

SHOW_HOODIE_PROPERTIES 命令功能查看指定hudi表的hoodie.properties文件中的配置。命令格式 call show_hoodie_properties(table => '[table_name]'); 参数描述表1 参数描述参数描述

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi SQL语法参考 > Hudi CALL COMMAND语法说明
添加Python包后，找不到指定的Python环境 - 数据湖探索 DLI

添加Python包后，找不到指定的Python环境添加Python3包后，找不到指定的Python环境。可以通过在conf文件中，设置spark.yarn.appMasterEnv.PYSPARK_PYTHON=python3，指定计算集群环境为Python3环境。目前，新

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
API语法说明 - 数据湖探索 DLI
API语法说明 - 数据湖探索 DLI

该操作不需要通过索引去查询具体更新的文件分区，因此它的速度比upsert快。当不包含更新数据时建议使用该操作，如果存在更新数据使用该操作会出现重复数据。 bulk_insert：该操作会对主键进行排序后直接以写普通parquet表的方式插入Hudi表，该操作性能是最高的，但是无法控制小文件，而upser

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > Spark datasource API语法参考
Hudi数据表Compaction规范 - 数据湖探索 DLI

阻塞Clean，如果没有Compaction操作来产生新版本的Parquet文件，那旧版本的文件就不能被Clean清理，增加存储压力。提交Spark jar作业时，CPU与内存比例为1:4~1:8。 Compaction作业是将存量的parquet文件内的数据与新增的log中的数据进行合并，需要消耗较高

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表管理操作规范
Hudi查询类型 - 数据湖探索 DLI
Hudi查询类型 - 数据湖探索 DLI

快照查询（Snapshot Queries）可以读到最新的commit/compaction产生的快照。对于MOR表，还会在查询中合并最新的delta log文件的内容，使读取的数据近实时。增量查询增量查询（Incremental Queries）只会查询到给定的commit/compaction之后新增的数据。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > Hudi表概述

总条数： 422

上一页
1
2
3
4
5
...
22
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

创建Spark作业 - 数据湖探索 DLI

Hudi Clustering操作说明 - 数据湖探索 DLI

VACUUM - 数据湖探索 DLI

Hudi数据表Clean规范 - 数据湖探索 DLI

SDK的获取与安装 - 数据湖探索 DLI

导出数据（废弃） - 数据湖探索 DLI

修改表生命周期的时间 - 数据湖探索 DLI

CLEAN_FILE - 数据湖探索 DLI

创建DLI程序包 - 数据湖探索 DLI

在Spark SQL作业中使用UDTF - 数据湖探索 DLI

自定义函数 - 数据湖探索 DLI

ARCHIVELOG - 数据湖探索 DLI

col - 数据湖探索 DLI

DESCRIBE DATABASE| SCHEMA - 数据湖探索 DLI

使用Spark-submit提交Spark Jar作业 - 数据湖探索 DLI

SHOW_HOODIE_PROPERTIES - 数据湖探索 DLI

添加Python包后，找不到指定的Python环境 - 数据湖探索 DLI

API语法说明 - 数据湖探索 DLI

Hudi数据表Compaction规范 - 数据湖探索 DLI

Hudi查询类型 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线