搜索_华为云

Hive源表 - 数据湖探索 DLI
Hive源表 - 数据湖探索 DLI

监视策略是扫描当前位置路径中的所有目录/文件。许多分区可能会导致性能下降。对未分区表进行流式读取时，要求将每个文件以原子方式写入目标目录。分区表的流式读取要求在 hive 元存储的视图中以原子方式添加每个分区。否则，将使用添加到现有分区的新数据。流式读取不支持 Flink DDL 中的水印语法。这些表不能用于窗口运算符。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > Hive
Hive结果表 - 数据湖探索 DLI
Hive结果表 - 数据湖探索 DLI

STREAMING 不断写入，向Hive添加新数据，以增量方式提交记录使其可见。用户控制何时/如何触发具有多个属性的提交。流式写入不支持插入覆盖。有关可用配置的完整列表，请参阅流式处理接收器。Streaming sink 前提条件该场景作业需要建立增强型跨源连接，且用户可以根据实际所需设置相应安全组规则。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > Hive
Hudi数据表Clean规范 - 数据湖探索 DLI

的触发阈值（对于Flink任务来说就是compaction.delta_commits的值）。 MOR表下游采用流式计算，历史版本保留小时级。如果MOR表的下游是流式计算，例如Flink流读，可以按照业务需要保留小时级的历史版本，这样的话近几个小时之内的增量数据可以通过log文

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表管理操作规范
TABLESAMPLE - 数据湖探索 DLI
TABLESAMPLE - 数据湖探索 DLI

运行时计算的随机值之间的比较）。系统采样中行的选择依赖于使用的connector。例如，如果使用Hive数据源，这将取决于数据在OBS上的布局。这种采样方法不能保证独立的抽样概率。 SELECT * FROM users TABLESAMPLE SYSTEM (75); 父主题：

帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法 > DQL 语法
最新动态 - 数据湖探索 DLI
最新动态 - 数据湖探索 DLI

支持Flink流作业 DLI上线Flink流作业，完全兼容Apache Flink和Spark API，即时执行Stream SQL或自定义作业，提供实时处理流式大数据的全栈能力。商用 Flink作业管理概述 2019年10月序号功能名称功能描述阶段相关文档 1 支持鲲鹏计算集群（北京四）

帮助中心 > 数据湖探索 DLI > 最新动态
Hudi源表 - 数据湖探索 DLI
Hudi源表 - 数据湖探索 DLI

Integer 读hudi表task并行度。 read.streaming.enabled 是 false Boolean 设置 true 开启流式增量模式，false批量读。建议值为true read.streaming.start-commit 否默认从最新 commit String

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > Hudi
Flink作业性能调优 - 数据湖探索 DLI

WHEN flag IN ('android', 'iphone')THEN user_id ELSE NULL END) AS app_uv 可调整为 COUNT(DISTINCT user_id) FILTER(WHERE flag IN ('android', 'iphone'))

帮助中心 > 数据湖探索 DLI > 常见问题 > Flink作业类 > Flink作业性能调优类
比较函数 - 数据湖探索 DLI
比较函数 - 数据湖探索 DLI

(sub-query) BOOLEAN 如果子查询至少返回一行则返回 TRUE。仅支持可以在 join 和分组操作中可以被重写的操作。对于流式查询，该操作在 join 和分组操作中被重写。根据输入行的数量计算查询结果所需的状态可能会无限增长。请提供具有有效保留间隔的查询配置，以防止状态过大。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 函数 > 内置函数
Hudi表索引设计规范 - 数据湖探索 DLI

如果Bucket索引+分区表的模式无法平衡Bueckt桶过大的问题，还是可以继续采用Flink状态索引，按照规范去优化对应的配置参数即可。建议基于Flink的流式写入的表，在数据量超过2亿条记录，采用Bucket索引，2亿以内可以采用Flink状态索引。参照Flink状态索引的特点，Hudi表超过

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表设计规范
使用Temporal join关联维表的最新版本 - 数据湖探索 DLI

查找连接中构建表的缓存 TTL（例如 10 分钟）。默认情况下，TTL 为 60 分钟。该选项仅在查找有界的 hive 表源时有效，如果您使用流式 hive 源作为时态表，请使用 streaming-source.monitor-interval 配置数据更新间隔。示例该示例展示了一个经典的业务流水线，维度表来自

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > Hive
FileSystem结果表 - 数据湖探索 DLI

rollover-interval属性检查文件是否该被滚动的检查频率。 auto-compaction 否 false Boolean 在流式 sink 中是否开启自动合并功能。数据首先会被写入临时文件。当checkpoint完成后，该checkpoint产生的临时文件会被合并。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建结果表
对象存储OBS结果表 - 数据湖探索 DLI

rollover-interval属性检查文件是否该被滚动的检查频率。 auto-compaction 否 false Boolean 在流式 sink 中是否开启自动合并功能。数据首先会被写入临时文件。当checkpoint完成后，该checkpoint产生的临时文件会被合并。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > 对象存储OBS
pyspark样例代码 - 数据湖探索 DLI

认证用的password硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全。代码实现详解 import相关依赖包 1 2 3 from __future__ import print_function from pyspark

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接OpenTSDB
java样例代码 - 数据湖探索 DLI
java样例代码 - 数据湖探索 DLI

认证用的password硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全。代码实现详解导入依赖涉及到的mvn依赖库 1 2 3 4 5 <dependency> <groupId>org.apache.spark</groupId>

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接Mongo
pyspark样例代码 - 数据湖探索 DLI

认证用的password硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全。代码实现详解 import相关依赖包 1 2 3 from __future__ import print_function from pyspark

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接RDS
ALTER TABLE - 数据湖探索 DLI
ALTER TABLE - 数据湖探索 DLI

ESTRICT，对列的修改，仅对表的元数据产生作用。列修改命令只能修改表/分区的元数据，而不会修改数据本身。用户应确保表/分区的实际数据布局符合元数据定义。不支持更改表的分区列/桶列，也不支持更改ORC表。修改表或分区的存储位置。 ALTER TABLE table_name

帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法 > DDL 语法
pyspark样例代码 - 数据湖探索 DLI

认证用的password硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全。代码实现详解 import相关依赖包 1 2 3 from __future__ import print_function from pyspark

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接HBase

总条数： 37

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Hive源表 - 数据湖探索 DLI

Hive结果表 - 数据湖探索 DLI

Hudi数据表Clean规范 - 数据湖探索 DLI

TABLESAMPLE - 数据湖探索 DLI

最新动态 - 数据湖探索 DLI

Hudi源表 - 数据湖探索 DLI

Flink作业性能调优 - 数据湖探索 DLI

比较函数 - 数据湖探索 DLI

Hudi表索引设计规范 - 数据湖探索 DLI

使用Temporal join关联维表的最新版本 - 数据湖探索 DLI

FileSystem结果表 - 数据湖探索 DLI

对象存储OBS结果表 - 数据湖探索 DLI

pyspark样例代码 - 数据湖探索 DLI

java样例代码 - 数据湖探索 DLI

pyspark样例代码 - 数据湖探索 DLI

ALTER TABLE - 数据湖探索 DLI

pyspark样例代码 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线