搜索_华为云

如何合并小文件 - 数据湖探索 DLI

如何合并小文件使用SQL过程中，生成的小文件过多时，会导致作业执行时间过长，且查询对应表时耗时增大，建议对小文件进行合并。推荐使用临时表进行数据中转自读自写在突发异常场景下存在数据丢失的风险执行SQL： INSERT OVERWRITE TABLE tablename select

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
Flink Jar作业是否支持上传配置文件，要如何操作？ - 数据湖探索 DLI

Flink Jar作业是否支持上传配置文件，要如何操作？ Flink Jar作业上传配置文件操作流程自定义(JAR)作业支持上传配置文件。将配置文件通过程序包管理上传到DLI；在Flink jar作业的其他依赖文件参数中，选择创建的DLI程序包；在代码中通过ClassName

帮助中心 > 数据湖探索 DLI > 常见问题 > Flink作业类 > Flink Jar作业类
Spark jar 如何读取上传文件 - 数据湖探索 DLI

Spark jar 如何读取上传文件 Spark可以使用SparkFiles读取 –-file中提交上来的文件的本地路径，即：SparkFiles.get("上传的文件名")。 Driver中的文件路径与Executor中获取的路径位置是不一致的，所以不能将Driver中获取到的

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
Flink Jar作业设置backend为OBS，报错不支持OBS文件系统 - 数据湖探索 DLI

Flink Jar作业设置backend为OBS，报错不支持OBS文件系统问题现象客户执行Flink Jar作业，通过设置checkpoint存储在OBS桶中，作业一直提交失败，并伴有报错提交日志，提示OBS桶名不合法。原因分析确认OBS桶名是否正确。确认所用AKSK是否有权限。

帮助中心 > 数据湖探索 DLI > 常见问题 > Flink作业类 > Flink Jar作业类
Flink作业输出流写入数据到OBS，通过该OBS文件路径创建的DLI表查询无数据 - 数据湖探索 DLI

Flink作业输出流写入数据到OBS，通过该OBS文件路径创建的DLI表查询无数据问题现象使用Flink作业输出流写入数据到了OBS中，通过该OBS文件路径创建的DLI表进行数据查询时，无法查询到数据。例如，使用如下Flink结果表将数据写入到OBS的“obs://obs-sink/car_infos”路径下。

帮助中心 > 数据湖探索 DLI > 常见问题 > Flink作业类 > Flink SQL作业类
使用Spark作业访问sftp中的文件，作业运行失败，日志显示访问目录异常 - 数据湖探索 DLI

使用Spark作业访问sftp中的文件，作业运行失败，日志显示访问目录异常 Spark作业不支持访问sftp，建议将文件数据上传到OBS，再通过Spark作业进行读取和分析。上传数据到OBS桶：通过OBS管理控制台或者使用命令行工具将存储在sftp中的文件数据上传到OBS桶中。 Sp

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业运维类
创建OBS外表，由于OBS文件中的某字段存在换行符导致表字段数据错误怎么办？ - 数据湖探索 DLI

创建OBS外表，由于OBS文件中的某字段存在换行符导致表字段数据错误怎么办？问题现象创建OBS外表，因为指定的OBS文件内容中某字段包含回车换行符导致表字段数据错误。例如，当前创建的OBS外表语句为： CREATE TABLE test06 (name string, id

帮助中心 > 数据湖探索 DLI > 常见问题 > DLI数据库和表类
SQL作业访问报错：File not Found - 数据湖探索 DLI

执行SQL作业访问报错：File not Found。可能原因可能由于文件路径错误或文件不存在导致系统无法找指定文件路径或文件。文件被占用。解决措施检查文件路径、文件名。检查文件的路径是否正确，包括目录名称和文件名。文件被占用文件被占用导致的文件报错找不到，一般是读写冲突产生的，建议查询SQ

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业运维类
Print结果表 - 数据湖探索 DLI
Print结果表 - 数据湖探索 DLI

若为true，则表示输出数据到taskmanager的error文件中。若为false，则表示输出数据到taskmanager的out中。示例从kafka中读取数据输出到taskmanager的out文件中，可以在taskmanager的out文件中看到输出结果。 create table kafkaSource(

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建结果表
添加分区（只支持OBS表） - 数据湖探索 DLI

LOCATION 'obs_path'。若新增分区指定的路径包含子目录（或嵌套子目录），则子目录下面的所有文件类型及内容也将作为该分区的记录。您需要保证该分区目录下所有文件类型和文件内容与表的字段一致，否则查询将报错。您可以在建表语句OPTIONS中设置“multiLevelDir

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 分区相关
DLI分区内表导入的文件不包含分区列的数据，导致数据导入完成后查询表数据失败怎么办？ - 数据湖探索 DLI

DLI分区内表导入的文件不包含分区列的数据，导致数据导入完成后查询表数据失败怎么办？问题现象 DLI分区内表导入了CSV文件数据，导入的文件数据没有包含对应分区列的字段数据。分区表查询时需要指定分区字段，导致查询不到表数据。问题根因 DLI分区内表在导入数据时，如果文件数据没有包含分

 帮助中心 > 数据湖探索 DLI > 常见问题 > DLI数据库和表类
SHOW_COMMIT_FILES - 数据湖探索 DLI
SHOW_COMMIT_FILES - 数据湖探索 DLI

指定的instant所更新或插入的文件位于哪个分区 file_id 指定的instant所更新或插入的文件的ID previous_commit 指定的instant所更新或插入的文件的文件名中的时间戳 total_records_updated 该文件中多少个record被更新 t

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi SQL语法参考 > Hudi CALL COMMAND语法说明
Hudi Compaction操作说明 - 数据湖探索 DLI

Plan一个一个去执行，一直到全部都执行完。对于Merge-On-Read表，数据使用列式Parquet文件和行式Avro文件存储，更新被记录到增量文件，然后进行同步/异步compaction生成新版本的列式文件。Merge-On-Read表可减少数据摄入延迟，因而进行不阻塞摄入的异步Compaction很有意义。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
导出DLI表数据至OBS中 - 数据湖探索 DLI

支持将数据从DLI表中导出到OBS服务中，导出操作将在OBS服务新建文件夹，或覆盖已有文件夹中的内容。注意事项支持导出json格式的文件，且文本格式仅支持UTF-8。只支持将DLI表（表类型为“Managed”）中的数据导出到OBS桶中，且导出的路径必须指定到文件夹级别。支持跨账号导出数据，即，如果B

帮助中心 > 数据湖探索 DLI > 用户指南 > 创建数据库和表 > 在DLI控制台管理表资源
对象存储OBS源表 - 数据湖探索 DLI

对象存储OBS源表功能描述文件系统连接器可用于将单个文件或整个目录的数据读取到单个表中。当使用目录作为source路径时，对目录中的文件进行无序的读取。更多信息参考文件系统 SQL 连接器语法格式 1 2 3 4 5 6 7 8 9 10 11 CREATE

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > 对象存储OBS
SHOW TABLE/PARTITION EXTENDED - 数据湖探索 DLI

可以使用规则运算表达式来同时匹配多个表，但不可用于匹配分区。展示的信息将包括表的基本信息和相关的文件系统信息，其中文件系统信息包括总文件数、总文件大小、最大文件长度、最小文件长度、最后访问时间以及最后更新时间。如果指定了分区，将给出指定分区的文件系统信息，而不是分区所在表的文件系统信息。参数说明

 帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法 > DDL 语法
Hudi Archive操作说明 - 数据湖探索 DLI

Archive用户清理Hudi表的元数据文件（位于.hoodie目录下，格式为 ${时间戳}.${操作类型}.${操作状态}，比如20240622143023546.deltacommit.request）。对Hudi表进行的每次操作都会产生元数据文件，而元数据文件过多会导致性能问题，所以元数据文件数量最好控制在1000以内。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
Hudi表使用约束 - 数据湖探索 DLI

写时复制表也简称COW表，使用parquet文件存储数据，内部的更新操作需要通过重写原始parquet文件完成。优点：读取时，只读取对应分区的一个数据文件即可，较为高效。缺点：数据写入的时候，需要复制一个先前的副本再在其基础上生成新的数据文件，这个过程比较耗时。且由于耗时，读请求读取到的数据相对就会滞后。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > Hudi表概述
Hudi Clean操作说明 - 数据湖探索 DLI

Hudi Clean操作说明什么是Clean Cleaning用于清理Hudi表不再需要的老版本数据文件 (parquet文件或者log文件)，减轻存储压力，提升list操作效率。如何执行Clean 写完数据后clean Spark SQL（设置如下参数，随后执行任意写入SQL时，在满足条件时触发）

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
Delta清理和优化 - 数据湖探索 DLI

前创建的数据文件。 VACUUM delta_table0; VACUUM delta_table0 RETAIN 168 HOURS;--单位只支持HOURS 优化Delta表为了提高查询速度，Delta Lake支持优化数据在存储中的布局，这会将许多较小的文件压缩为较大的文件。

帮助中心 > 数据湖探索 DLI > Delta SQL语法参考

总条数： 423

上一页
1
2
3
4
5
...
22
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何合并小文件 - 数据湖探索 DLI

Flink Jar作业是否支持上传配置文件，要如何操作？ - 数据湖探索 DLI

Spark jar 如何读取上传文件 - 数据湖探索 DLI

Flink Jar作业设置backend为OBS，报错不支持OBS文件系统 - 数据湖探索 DLI

Flink作业输出流写入数据到OBS，通过该OBS文件路径创建的DLI表查询无数据 - 数据湖探索 DLI

使用Spark作业访问sftp中的文件，作业运行失败，日志显示访问目录异常 - 数据湖探索 DLI

创建OBS外表，由于OBS文件中的某字段存在换行符导致表字段数据错误怎么办？ - 数据湖探索 DLI

SQL作业访问报错：File not Found - 数据湖探索 DLI

Print结果表 - 数据湖探索 DLI

添加分区（只支持OBS表） - 数据湖探索 DLI

DLI分区内表导入的文件不包含分区列的数据，导致数据导入完成后查询表数据失败怎么办？ - 数据湖探索 DLI

SHOW_COMMIT_FILES - 数据湖探索 DLI

Hudi Compaction操作说明 - 数据湖探索 DLI

导出DLI表数据至OBS中 - 数据湖探索 DLI

对象存储OBS源表 - 数据湖探索 DLI

SHOW TABLE/PARTITION EXTENDED - 数据湖探索 DLI

Hudi Archive操作说明 - 数据湖探索 DLI

Hudi表使用约束 - 数据湖探索 DLI

Hudi Clean操作说明 - 数据湖探索 DLI

Delta清理和优化 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线