搜索_华为云

使用JDBC连接DLI并提交SQL作业 - 数据湖探索 DLI

JDBC驱动包“huaweicloud-dli-jdbc-<version>.zip”，解压，获得“huaweicloud-dli-jdbc-<version>-jar-with-dependencies.jar”。在使用JDBC的机器中，将上一步解压的文件“huaweicloud-dli-jdbc-1.1.1

帮助中心 > 数据湖探索 DLI > 开发指南 > 使用客户端工具连接DLI > 使用JDBC提交SQL作业
FileSystem结果表 - 数据湖探索 DLI

uid会重新生成。文件合并 FileSink 开始支持已经提交Pending文件的合并，从而允许应用设置一个较小的时间周期并且避免生成大量的小文件。这一功能开启后，在文件转为Pending状态与文件最终提交之间会进行文件合并。这些Pending状态的文件将首先被提交为一个以.

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建结果表
新建跨源连接，显示已激活，但使用时提示communication link failure错误怎么办？ - 数据湖探索 DLI

新建跨源连接，显示已激活，但使用时提示communication link failure错误怎么办？根因分析网络连通性问题，建议用户检查安全组选择是否正确，检查安全组网络（vpc）配置。解决方案示列：创建RDS跨源，使用时报“communication link failure”错误。

帮助中心 > 数据湖探索 DLI > 常见问题 > 增强型跨源连接类
执行SQL作业时产生数据倾斜怎么办？ - 数据湖探索 DLI

执行SQL作业时产生数据倾斜怎么办？什么是数据倾斜？数据倾斜是在SQL作业执行中常见的问题，当数据分布不均匀的情况下，一部分计算节点处理的数据量远大于其他节点，从而影响整个计算过程的处理效率。例如观察到SQL执行时间较长，进入SparkUI查看对应SQL的执行状态，如图1所

 帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
DLI datasourceV1表和datasourceV2表 - 数据湖探索 DLI

ID/数据文件。图1 DLI datasource v1表 DLI datasource v2表（以下简称V2表）：spark开源的Datasource表，建表/插入/truncate命令使用spark开源的command，表的数据路径为$tablepath/数据文件。图2 DLI

帮助中心 > 数据湖探索 DLI > 服务公告 > 版本支持公告 > Spark 2.4.x与Spark 3.3.x版本差异对比
Flink作业管理界面对用户进行授权时提示用户不存在怎么办？ - 数据湖探索 DLI

Flink作业管理界面对用户进行授权时提示用户不存在怎么办？问题现象在“作业管理 > Flink作业”，对应作业“操作”列，选择“更多 > 权限管理”，对新用户进行授权操作时提示“No such user. userName:xxxx.”错误。解决方案以上问题可能是由于系统未能识别新用户信息。

帮助中心 > 数据湖探索 DLI > 常见问题 > Flink作业类 > Flink作业咨询类
Flink SQL作业类 - 数据湖探索 DLI

link作业实现动态感知？在Flink SQL作业中创建表使用EL表达式，作业运行提示DLI.0005错误怎么办？ Flink作业输出流写入数据到OBS，通过该OBS文件路径创建的DLI表查询无数据 Flink SQL作业运行失败，日志中有connect to DIS failed

帮助中心 > 数据湖探索 DLI > 常见问题 > Flink作业类
FileSytem结果表 - 数据湖探索 DLI

FileSytem结果表功能描述 FileSystem结果表用于将数据输出到分布式文件系统HDFS或者对象存储服务OBS等文件系统。数据生成后，可直接对生成的目录创建非DLI表，通过DLI SQL进行下一步处理分析，并且输出数据目录支持分区表结构。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建结果表
Hudi Archive操作说明 - 数据湖探索 DLI

Archive用户清理Hudi表的元数据文件（位于.hoodie目录下，格式为 ${时间戳}.${操作类型}.${操作状态}，比如20240622143023546.deltacommit.request）。对Hudi表进行的每次操作都会产生元数据文件，而元数据文件过多会导致性能问题，所以元数据文件数量最好控制在1000以内。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
使用Hive语法创建OBS表 - 数据湖探索 DLI

obs_path 是数据文件所在的OBS存储路径，推荐使用OBS并行文件系统存储。格式：obs://bucketName/tblPath bucketName即桶名称。 tblPath是目录名称。目录后不需要指定文件名。当OBS的目录下文件夹与文件同名时，创建OBS表指向的路径会优先指向文件而非文件夹。

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 创建OBS表
导出数据（废弃） - 数据湖探索 DLI

导出数据的储存路径（当前仅支持将数据存储在OBS上）。另外，“export_mode”配置为“errorifexists”时，该路径下的文件夹须不存在，如请求样例中的“test”文件夹。 data_type 是 String 导出数据的类型，目前API支持csv和json格式数据。 database_name

帮助中心 > 数据湖探索 DLI > API参考 > 历史API > SQL作业相关API（废弃）
程序包管理概述 - 数据湖探索 DLI

程序包程序包支持删除，但不支持删除程序包组。支持上传的程序包类型： JAR：用户jar文件。 PyFile：用户Python文件。 File：用户文件。 ModelFile：用户AI模型文件。程序包管理页面表2 程序包管理参数参数参数说明分组名称程序包所属分组的名称。如果不分组，则显示“--”。

帮助中心 > 数据湖探索 DLI > 用户指南 > DLI常用管理操作 > 管理Jar作业程序包
Hudi Clean操作说明 - 数据湖探索 DLI

Hudi Clean操作说明什么是Clean Cleaning用于清理Hudi表不再需要的老版本数据文件 (parquet文件或者log文件)，减轻存储压力，提升list操作效率。如何执行Clean 写完数据后clean Spark SQL（设置如下参数，随后执行任意写入SQL时，在满足条件时触发）

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
REFRESH TABLE刷新表元数据 - 数据湖探索 DLI

FileNotFoundException: getFileStatus on error message 该场景下就需要使用REFRESH TABLE来解决该问题。REFRESH TABLE是用于重新整理某个分区的文件，重用之前的表元数据信息，能够检测到表的字段的增加或者减少，主要用于表中元数据未修改，表的数据修改的场景。

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 分区相关
Hudi Compaction操作说明 - 数据湖探索 DLI

Plan一个一个去执行，一直到全部都执行完。对于Merge-On-Read表，数据使用列式Parquet文件和行式Avro文件存储，更新被记录到增量文件，然后进行同步/异步compaction生成新版本的列式文件。Merge-On-Read表可减少数据摄入延迟，因而进行不阻塞摄入的异步Compaction很有意义。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
SQL作业运行慢如何定位 - 数据湖探索 DLI

container_xxx_000001归档日志文件夹示例 Spark Jar作业： Spark Jar作业的归档日志文件夹以“batch”开头。图4 Spark Jar作业归档日志文件夹名示例进入归档日志文件目录，在归档日志文件目录下，下载“gc.log.*”日志。打开已下载的“gc.log.*”日志，搜索“Full

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
Delta清理和优化 - 数据湖探索 DLI

前创建的数据文件。 VACUUM delta_table0; VACUUM delta_table0 RETAIN 168 HOURS;--单位只支持HOURS 优化Delta表为了提高查询速度，Delta Lake支持优化数据在存储中的布局，这会将许多较小的文件压缩为较大的文件。

帮助中心 > 数据湖探索 DLI > Delta SQL语法参考
Hudi表使用约束 - 数据湖探索 DLI

写时复制表也简称COW表，使用parquet文件存储数据，内部的更新操作需要通过重写原始parquet文件完成。优点：读取时，只读取对应分区的一个数据文件即可，较为高效。缺点：数据写入的时候，需要复制一个先前的副本再在其基础上生成新的数据文件，这个过程比较耗时。且由于耗时，读请求读取到的数据相对就会滞后。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > Hudi表概述
SHOW_INVALID_PARQUET - 数据湖探索 DLI

SHOW_INVALID_PARQUET 命令功能查看执行路径下损坏的parquet文件。命令格式 call show_invalid_parquet(path => 'path') 参数描述表1 参数描述参数描述是否必填 path 需要查询的FS路径是示例 call

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi SQL语法参考 > Hudi CALL COMMAND语法说明
Hudi Clustering操作说明 - 数据湖探索 DLI

Clean不支持清理Clustering失败后的残留文件。 Clustering后产生的新文件大小不等，这可能引起数据倾斜。 Clustering不支持和Upsert（写操作更新待Clustering的文件）并发，如果Clustering处于inflight状态，该FileGroup下的文件不支持被更新。如果

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护

总条数： 447

上一页
1
2
3
4
5
...
23
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用JDBC连接DLI并提交SQL作业 - 数据湖探索 DLI

FileSystem结果表 - 数据湖探索 DLI

新建跨源连接，显示已激活，但使用时提示communication link failure错误怎么办？ - 数据湖探索 DLI

执行SQL作业时产生数据倾斜怎么办？ - 数据湖探索 DLI

DLI datasourceV1表和datasourceV2表 - 数据湖探索 DLI

Flink作业管理界面对用户进行授权时提示用户不存在怎么办？ - 数据湖探索 DLI

Flink SQL作业类 - 数据湖探索 DLI

FileSytem结果表 - 数据湖探索 DLI

Hudi Archive操作说明 - 数据湖探索 DLI

使用Hive语法创建OBS表 - 数据湖探索 DLI

导出数据（废弃） - 数据湖探索 DLI

程序包管理概述 - 数据湖探索 DLI

Hudi Clean操作说明 - 数据湖探索 DLI

REFRESH TABLE刷新表元数据 - 数据湖探索 DLI

Hudi Compaction操作说明 - 数据湖探索 DLI

SQL作业运行慢如何定位 - 数据湖探索 DLI

Delta清理和优化 - 数据湖探索 DLI

Hudi表使用约束 - 数据湖探索 DLI

SHOW_INVALID_PARQUET - 数据湖探索 DLI

Hudi Clustering操作说明 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线