搜索_华为云

Hudi Archive操作说明 - 数据湖探索 DLI

Archive用户清理Hudi表的元数据文件（位于.hoodie目录下，格式为 ${时间戳}.${操作类型}.${操作状态}，比如20240622143023546.deltacommit.request）。对Hudi表进行的每次操作都会产生元数据文件，而元数据文件过多会导致性能问题，所以元数据文件数量最好控制在1000以内。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
典型场景示例：迁移RDS数据至DLI - 数据湖探索 DLI

返回到驱动管理界面，在驱动名称为MYSQL的操作列，单击“上传”，在“导入驱动文件”界面单击“添加文件”，将1.a.iii获取的驱动文件上传。在驱动管理界面单击“返回”按钮回到连接管理界面，单击“新建连接”，连接器类型选择“云数据库 MySQL”，单击“下一步”。配置连接RDS的数据源连接参数，具体参数配置如下。

帮助中心 > 数据湖探索 DLI > 用户指南 > 数据迁移与数据传输 > 迁移外部数据源数据至DLI
使用Hive语法创建OBS表 - 数据湖探索 DLI

obs_path 是数据文件所在的OBS存储路径，推荐使用OBS并行文件系统存储。格式：obs://bucketName/tblPath bucketName即桶名称。 tblPath是目录名称。目录后不需要指定文件名。当OBS的目录下文件夹与文件同名时，创建OBS表指向的路径会优先指向文件而非文件夹。

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 创建OBS表
DIS源表 - 数据湖探索 DLI
DIS源表 - 数据湖探索 DLI

该参数和partition-range参数不能同时配置。当两个参数都没有配置的时候默认读取所有partition。 connector.partition-range 否指定作业从DIS通道读取的分区范围。该参数和partition-count参数不能同时配置。当两个参数没有配置的时候默认读取所有partition。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建源表
CLEANARCHIVE - 数据湖探索 DLI
CLEANARCHIVE - 数据湖探索 DLI

CLEANARCHIVE 命令功能用于对Hudi表的归档文件进行清理，以减少Hudi表的数据存储及读写压力。命令格式按文件容量进行清理，需要配置参数： hoodie.archive.file.cleaner.policy = KEEP_ARCHIVED_FILES_BY_SIZE;

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi SQL语法参考 > Hudi DML语法说明
FileSytem结果表 - 数据湖探索 DLI

FileSytem结果表功能描述 FileSystem结果表用于将数据输出到分布式文件系统HDFS或者对象存储服务OBS等文件系统。数据生成后，可直接对生成的目录创建非DLI表，通过DLI SQL进行下一步处理分析，并且输出数据目录支持分区表结构。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建结果表
Hudi Compaction操作说明 - 数据湖探索 DLI

Plan一个一个去执行，一直到全部都执行完。对于Merge-On-Read表，数据使用列式Parquet文件和行式Avro文件存储，更新被记录到增量文件，然后进行同步/异步compaction生成新版本的列式文件。Merge-On-Read表可减少数据摄入延迟，因而进行不阻塞摄入的异步Compaction很有意义。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
Delta清理和优化 - 数据湖探索 DLI

前创建的数据文件。 VACUUM delta_table0; VACUUM delta_table0 RETAIN 168 HOURS;--单位只支持HOURS 优化Delta表为了提高查询速度，Delta Lake支持优化数据在存储中的布局，这会将许多较小的文件压缩为较大的文件。

帮助中心 > 数据湖探索 DLI > Delta SQL语法参考
创建表（废弃） - 数据湖探索 DLI

table_name 是 String 新增表名称。表名称只能包含数字、英文字母和下划线，但不能是纯数字，且不能以下划线开头。表名称大小写不敏感且不能为空。表名称支持包含“$”符号。例如：$test。输入长度不能超过128个字符。 data_location 是 String 数据存储的地方。范围为：

帮助中心 > 数据湖探索 DLI > API参考 > 历史API > 资源相关API（废弃） > 表相关API（废弃）
Hudi Clean操作说明 - 数据湖探索 DLI

Hudi Clean操作说明什么是Clean Cleaning用于清理Hudi表不再需要的老版本数据文件 (parquet文件或者log文件)，减轻存储压力，提升list操作效率。如何执行Clean 写完数据后clean Spark SQL（设置如下参数，随后执行任意写入SQL时，在满足条件时触发）

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
增强型跨源连接类 - 数据湖探索 DLI

增强型跨源连接类增强型跨源连接绑定队列失败怎么办？ DLI增强型跨源连接DWS失败怎么办？创建跨源成功但测试网络连通性失败怎么办？怎样配置DLI队列与数据源的网络连通？为什么DLI增强型跨源连接要创建对等连接？ DLI创建跨源连接，绑定队列一直在创建中怎么办？新建跨源连

 帮助中心 > 数据湖探索 DLI > 常见问题
创建Spark作业 - 数据湖探索 DLI
创建Spark作业 - 数据湖探索 DLI

应jar包文件的OBS路径，格式为：obs://桶名/文件夹路径名/包名。依赖python文件（--py-files）运行spark作业依赖的py-files。可以输入Python文件名称，也可以输入Python文件对应的OBS路径，格式为：obs://桶名/文件夹路径名/文件名。

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Spark作业
典型场景示例：迁移Elasticsearch数据至DLI - 数据湖探索 DLI

选择CSS集群中创建的Elasticsearch索引名。当前示例为CSS集群上创建索引并导入数据中创建的索引“my_test”。索引名称只能全部小写，不能有大写。类型 Elasticsearch的类型，类似关系数据库中的表名称。类型名称只能全部小写，不能有大写。当前示例为：“_doc”。更多其他参数说明可以参考：CDM配置CSS源端参数。

帮助中心 > 数据湖探索 DLI > 用户指南 > 数据迁移与数据传输 > 迁移外部数据源数据至DLI
添加分区（只支持OBS表） - 数据湖探索 DLI

LOCATION 'obs_path'。若新增分区指定的路径包含子目录（或嵌套子目录），则子目录下面的所有文件类型及内容也将作为该分区的记录。您需要保证该分区目录下所有文件类型和文件内容与表的字段一致，否则查询将报错。您可以在建表语句OPTIONS中设置“multiLevelDir

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 分区相关
VACUUM - 数据湖探索 DLI
VACUUM - 数据湖探索 DLI

VACUUM命令用于删除表目录中不由 Delta 管理的所有文件，并删除不再处于表事务日志最新状态且超过保留期阈值的数据文件。默认阈值为 7 天。注意事项 RETAIN num HOURS表示保留期阈值，建议设置为至少 7 天。如果对 Delta 表运行VACUUM，则将无法再回头查看在指定数据保留期之前创建的版本。

帮助中心 > 数据湖探索 DLI > Delta SQL语法参考 > Delta SQL语法参考 > Delta DML语法说明
COMPACTION - 数据湖探索 DLI
COMPACTION - 数据湖探索 DLI

COMPACTION 命令功能压缩( compaction)用于在 MergeOnRead表将基于行的log日志文件转化为parquet列式数据文件，用于加快记录的查找。命令格式 SCHEDULE COMPACTION on tableIdentifier |tablelocation;

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi SQL语法参考 > Hudi DML语法说明
创建增强型跨源连接 - 数据湖探索 DLI

配置增强型跨源连接信息，详细参数介绍请参见表2。表2 参数说明参数参数说明连接名称所创建的跨源连接名称。名称只能包含数字、英文字母、下划线。不能为空。输入长度不能超过64个字符。弹性资源池可选参数，用于绑定使用跨源连接的弹性资源池或队列。仅包周期和按需计费模式的专属队列支持绑定弹性资源池。

帮助中心 > 数据湖探索 DLI > 用户指南 > 数据迁移与数据传输 > 配置DLI读写外部数据源数据 > 配置DLI与数据源网络连通（增强型跨源连接）
Flink作业重启后，如何保证不丢失数据？ - 数据湖探索 DLI

恢复保存点”，作业将从选择的savepoint文件中恢复消费位点及状态。同时，由于Flink Checkpoint和Savepoint生成机制及格式一致，因而，也可以通过Flink作业列表“操作”列中的“更多”>“导入保存点”，导入OBS中最新成功的Checkpoint，并从中恢复。

帮助中心 > 数据湖探索 DLI > 常见问题 > Flink作业类 > Flink作业性能调优类
导出数据（废弃） - 数据湖探索 DLI

该API用于从DLI表中导出数据到文件。该API为异步操作。目前只支持从DLI表导出数据到OBS中，且导出的路径必须指定到文件夹级别。OBS路径中不支持逗号，且其中的桶名不能以正则格式“.[0-9]+(.*)”结尾，即，若桶名包含“.”，则最后一个“.”不可以数字开头（例如：**.12abc

帮助中心 > 数据湖探索 DLI > API参考 > 历史API > SQL作业相关API（废弃）
为什么Spark3.x的作业日志中打印找不到global_temp数据库 - 数据湖探索 DLI

global_temp数据库是Spark3.x默认内置的数据库，是Spark的全局临时视图。通常在Spark作业执行注册viewManager时，会校验该数据库在metastore是否存在，如果该数据库存在则会导致Spark作业执行失败。因此当Spark3.x的作业日志中如果出现一条访问catalog查询该数据库

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业运维类

总条数： 649

上一页
1
...
4
5
6
...
33
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Hudi Archive操作说明 - 数据湖探索 DLI

典型场景示例：迁移RDS数据至DLI - 数据湖探索 DLI

使用Hive语法创建OBS表 - 数据湖探索 DLI

DIS源表 - 数据湖探索 DLI

CLEANARCHIVE - 数据湖探索 DLI

FileSytem结果表 - 数据湖探索 DLI

Hudi Compaction操作说明 - 数据湖探索 DLI

Delta清理和优化 - 数据湖探索 DLI

创建表（废弃） - 数据湖探索 DLI

Hudi Clean操作说明 - 数据湖探索 DLI

增强型跨源连接类 - 数据湖探索 DLI

创建Spark作业 - 数据湖探索 DLI

典型场景示例：迁移Elasticsearch数据至DLI - 数据湖探索 DLI

添加分区（只支持OBS表） - 数据湖探索 DLI

VACUUM - 数据湖探索 DLI

COMPACTION - 数据湖探索 DLI

创建增强型跨源连接 - 数据湖探索 DLI

Flink作业重启后，如何保证不丢失数据？ - 数据湖探索 DLI

导出数据（废弃） - 数据湖探索 DLI

为什么Spark3.x的作业日志中打印找不到global_temp数据库 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线