搜索_华为云

如何合并小文件 - 数据湖探索 DLI

如何合并小文件使用SQL过程中，生成的小文件过多时，会导致作业执行时间过长，且查询对应表时耗时增大，建议对小文件进行合并。推荐使用临时表进行数据中转自读自写在突发异常场景下存在数据丢失的风险执行SQL： INSERT OVERWRITE TABLE tablename select

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
Spark jar 如何读取上传文件 - 数据湖探索 DLI

Spark jar 如何读取上传文件 Spark可以使用SparkFiles读取 –-file中提交上来的文件的本地路径，即：SparkFiles.get("上传的文件名")。 Driver中的文件路径与Executor中获取的路径位置是不一致的，所以不能将Driver中获取到的

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
使用Spark作业访问sftp中的文件，作业运行失败，日志显示访问目录异常 - 数据湖探索 DLI

使用Spark作业访问sftp中的文件，作业运行失败，日志显示访问目录异常 Spark作业不支持访问sftp，建议将文件数据上传到OBS，再通过Spark作业进行读取和分析。上传数据到OBS桶：通过OBS管理控制台或者使用命令行工具将存储在sftp中的文件数据上传到OBS桶中。 Sp

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业运维类
Flink Jar作业是否支持上传配置文件，要如何操作？ - 数据湖探索 DLI

Flink Jar作业是否支持上传配置文件，要如何操作？ Flink Jar作业上传配置文件操作流程自定义(JAR)作业支持上传配置文件。将配置文件通过程序包管理上传到DLI；在Flink jar作业的其他依赖文件参数中，选择创建的DLI程序包；在代码中通过ClassName

帮助中心 > 数据湖探索 DLI > 常见问题 > Flink作业类 > Flink Jar作业类
Flink作业输出流写入数据到OBS，通过该OBS文件路径创建的DLI表查询无数据 - 数据湖探索 DLI

Flink作业输出流写入数据到OBS，通过该OBS文件路径创建的DLI表查询无数据问题现象使用Flink作业输出流写入数据到了OBS中，通过该OBS文件路径创建的DLI表进行数据查询时，无法查询到数据。例如，使用如下Flink结果表将数据写入到OBS的“obs://obs-sink/car_infos”路径下。

帮助中心 > 数据湖探索 DLI > 常见问题 > Flink作业类 > Flink SQL作业类
DLI分区内表导入的文件不包含分区列的数据，导致数据导入完成后查询表数据失败怎么办？ - 数据湖探索 DLI

DLI分区内表导入的文件不包含分区列的数据，导致数据导入完成后查询表数据失败怎么办？问题现象 DLI分区内表导入了CSV文件数据，导入的文件数据没有包含对应分区列的字段数据。分区表查询时需要指定分区字段，导致查询不到表数据。问题根因 DLI分区内表在导入数据时，如果文件数据没有包含分

 帮助中心 > 数据湖探索 DLI > 常见问题 > DLI数据库和表类
Flink Jar作业设置backend为OBS，报错不支持OBS文件系统 - 数据湖探索 DLI

Flink Jar作业设置backend为OBS，报错不支持OBS文件系统问题现象客户执行Flink Jar作业，通过设置checkpoint存储在OBS桶中，作业一直提交失败，并伴有报错提交日志，提示OBS桶名不合法。原因分析确认OBS桶名是否正确。确认所用AKSK是否有权限。

帮助中心 > 数据湖探索 DLI > 常见问题 > Flink作业类 > Flink Jar作业类
使用Hive语法创建DLI表 - 数据湖探索 DLI

在表存储格式为PARQUET时，可以通过指定TBLPROPERTIES(parquet.compression = 'zstd')来指定表压缩格式为zstd。 AS：使用CTAS创建表。参数说明表1 参数描述参数是否必选描述 db_name 否 Database名称。

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 创建DLI表
创建OBS外表，由于OBS文件中的某字段存在换行符导致表字段数据错误怎么办？ - 数据湖探索 DLI

创建OBS外表，由于OBS文件中的某字段存在换行符导致表字段数据错误怎么办？问题现象创建OBS外表，因为指定的OBS文件内容中某字段包含回车换行符导致表字段数据错误。例如，当前创建的OBS外表语句为： CREATE TABLE test06 (name string, id

帮助中心 > 数据湖探索 DLI > 常见问题 > DLI数据库和表类
使用DataSource语法创建OBS表 - 数据湖探索 DLI

更多建表时的属性名与属性值请参考表2。 file_format为csv时表的属性名与属性值请参考表2和表3。当OBS的目录下文件夹与文件同名时，创建OBS表指向的路径会优先指向文件而非文件夹。 table_comment 否表描述信息。仅支持字符串常量。 select_statement 否用于CTAS命令，将

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 创建OBS表
SQL作业访问报错：File not Found - 数据湖探索 DLI

执行SQL作业访问报错：File not Found。可能原因可能由于文件路径错误或文件不存在导致系统无法找指定文件路径或文件。文件被占用。解决措施检查文件路径、文件名。检查文件的路径是否正确，包括目录名称和文件名。文件被占用文件被占用导致的文件报错找不到，一般是读写冲突产生的，建议查询SQ

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业运维类
Hudi Compaction操作说明 - 数据湖探索 DLI

Plan一个一个去执行，一直到全部都执行完。对于Merge-On-Read表，数据使用列式Parquet文件和行式Avro文件存储，更新被记录到增量文件，然后进行同步/异步compaction生成新版本的列式文件。Merge-On-Read表可减少数据摄入延迟，因而进行不阻塞摄入的异步Compaction很有意义。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
Delta清理和优化 - 数据湖探索 DLI

前创建的数据文件。 VACUUM delta_table0; VACUUM delta_table0 RETAIN 168 HOURS;--单位只支持HOURS 优化Delta表为了提高查询速度，Delta Lake支持优化数据在存储中的布局，这会将许多较小的文件压缩为较大的文件。

帮助中心 > 数据湖探索 DLI > Delta SQL语法参考
Hudi Archive操作说明 - 数据湖探索 DLI

Archive用户清理Hudi表的元数据文件（位于.hoodie目录下，格式为 ${时间戳}.${操作类型}.${操作状态}，比如20240622143023546.deltacommit.request）。对Hudi表进行的每次操作都会产生元数据文件，而元数据文件过多会导致性能问题，所以元数据文件数量最好控制在1000以内。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
Spark 2.4.x与Spark 3.3.x版本在通用队列的差异对比 - 数据湖探索 DLI

有影响，需要判断是否使用分区名做业务判断。 eventlog的压缩格式设置为zstd 说明： Spark3.3.x版本中，spark.eventLog.compression.codec的默认值被设置为zstd，Spark在压缩事件日志时将不再支持使用spark.io.compression

帮助中心 > 数据湖探索 DLI > 服务公告 > 版本支持公告 > Spark 2.4.x与Spark 3.3.x版本差异对比
使用DataSource语法创建DLI表 - 数据湖探索 DLI

是否迭代查询子目录中的数据。当配置为true时，查询该表时会迭代读取该表路径中所有文件，包含子目录中的文件。 false compression 否指定压缩格式。一般为parquet格式时指定该参数，推荐使用'zstd'压缩格式。 - 示例1：创建DLI非分区表示例说明：创建名为tabl

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 创建DLI表
对象存储OBS源表 - 数据湖探索 DLI

对象存储OBS源表功能描述文件系统连接器可用于将单个文件或整个目录的数据读取到单个表中。当使用目录作为source路径时，对目录中的文件进行无序的读取。更多信息参考文件系统 SQL 连接器语法格式 1 2 3 4 5 6 7 8 9 10 11 CREATE

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > 对象存储OBS
Hudi Clean操作说明 - 数据湖探索 DLI

Hudi Clean操作说明什么是Clean Cleaning用于清理Hudi表不再需要的老版本数据文件 (parquet文件或者log文件)，减轻存储压力，提升list操作效率。如何执行Clean 写完数据后clean Spark SQL（设置如下参数，随后执行任意写入SQL时，在满足条件时触发）

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
SDK获取与安装 - 数据湖探索 DLI

pyHive的实现接口。 setup.py Python SDK安装脚本。安装DLI Python SDK 下载并解压SDK安装包。将"dli-sdk-python-<version>.zip"解压到本地目录，目录可自行调整。安装SDK。打开Windows操作系统“开始”菜单，输入cmd命令。

帮助中心 > 数据湖探索 DLI > SDK参考 > Python SDK > Python SDK环境配置
Print结果表 - 数据湖探索 DLI
Print结果表 - 数据湖探索 DLI

若为true，则表示输出数据到taskmanager的error文件中。若为false，则表示输出数据到taskmanager的out中。示例从kafka中读取数据输出到taskmanager的out文件中，可以在taskmanager的out文件中看到输出结果。 create table kafkaSource(

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建结果表

总条数： 308

上一页
1
2
3
4
5
...
16
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何合并小文件 - 数据湖探索 DLI

Spark jar 如何读取上传文件 - 数据湖探索 DLI

使用Spark作业访问sftp中的文件，作业运行失败，日志显示访问目录异常 - 数据湖探索 DLI

Flink Jar作业是否支持上传配置文件，要如何操作？ - 数据湖探索 DLI

Flink作业输出流写入数据到OBS，通过该OBS文件路径创建的DLI表查询无数据 - 数据湖探索 DLI

DLI分区内表导入的文件不包含分区列的数据，导致数据导入完成后查询表数据失败怎么办？ - 数据湖探索 DLI

Flink Jar作业设置backend为OBS，报错不支持OBS文件系统 - 数据湖探索 DLI

使用Hive语法创建DLI表 - 数据湖探索 DLI

创建OBS外表，由于OBS文件中的某字段存在换行符导致表字段数据错误怎么办？ - 数据湖探索 DLI

使用DataSource语法创建OBS表 - 数据湖探索 DLI

SQL作业访问报错：File not Found - 数据湖探索 DLI

Hudi Compaction操作说明 - 数据湖探索 DLI

Delta清理和优化 - 数据湖探索 DLI

Hudi Archive操作说明 - 数据湖探索 DLI

Spark 2.4.x与Spark 3.3.x版本在通用队列的差异对比 - 数据湖探索 DLI

使用DataSource语法创建DLI表 - 数据湖探索 DLI

对象存储OBS源表 - 数据湖探索 DLI

Hudi Clean操作说明 - 数据湖探索 DLI

SDK获取与安装 - 数据湖探索 DLI

Print结果表 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线