搜索_华为云

窗口去重 - 数据湖探索 DLI
窗口去重 - 数据湖探索 DLI

Flink 使用 ROW_NUMBER() 移除重复数据，就像窗口TopN一样。理论上，窗口是一种特殊的窗口 Top-N：N是1并且是根据处理时间或事件时间排序的。更多介绍和使用请参考开源社区文档：窗口去重。语法格式 SELECT [column_list] FROM (

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 数据操作语句DML > 窗口
Hudi表分区设计规范 - 数据湖探索 DLI

表，也可以采用非分区表。如果维度表的总数据量很大或者增量也很大，可以考虑采用某个业务ID进行分区，在大部分数据处理逻辑中针对大维度表，会有一定的业务条件进行过滤来提升处理性能，这类表要结合一定的业务场景来进行优化，无法从单纯的日期分区进行优化。事实表读取方式都会按照时间段切分，近

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表设计规范
trunc - 数据湖探索 DLI
trunc - 数据湖探索 DLI

date, string format) 参数说明表1 参数说明参数是否必选参数类型说明 date 是 DATE或STRING 需要处理的日期。格式： yyyy-mm-dd yyyy-mm-dd hh:mi:ss yyyy-mm-dd hh:mi:ss.ff3 format

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数 > 日期函数
对象存储OBS源表 - 数据湖探索 DLI

monitor-interval 无 Duration 设置新文件的监控时间间隔，并且必须设置 > 0 的值。每个文件都有其路径唯一标识，一旦发现新文件，就会处理一次。已处理的文件在 source 的整个生命周期内存储在 state 中，因此，source 的 state 在 checkpoint 和 savepoint

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > 对象存储OBS
DLI跨源连接报错找不到子网怎么办？ - 数据湖探索 DLI

能，因此需要获得VPC（虚拟私有云）的VPC Administrator权限。客户未给VPC服务授权导致DLI跨源连接报错找不到子网。处理步骤登录DLI管理控制台，选择“全局配置 > 服务授权”。在委托设置页面，按需选择所需的委托权限。其中“DLI Datasource

帮助中心 > 数据湖探索 DLI > 常见问题 > 增强型跨源连接类
Hudi Clustering操作说明 - 数据湖探索 DLI

小，以改善并行性并避免混排大量数据。将Clustering计划以avro元数据格式保存到时间线。执行Clustering：使用执行策略处理计划以创建新文件并替换旧文件。读取Clustering计划，并获得ClusteringGroups，其标记了需要进行Clustering的文件组。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
增强型跨源连接绑定队列失败怎么办？ - 数据湖探索 DLI

对等连接、端口功能，因此需要获得VPC（虚拟私有云）的VPC Administrator权限。客户未给VPC服务授权导致绑定队列失败。处理步骤登录DLI管理控制台，选择“全局配置 > 服务授权”。在委托设置页面，按需选择所需的委托权限。其中“DLI Datasource

帮助中心 > 数据湖探索 DLI > 常见问题 > 增强型跨源连接类
TABLESAMPLE - 数据湖探索 DLI
TABLESAMPLE - 数据湖探索 DLI

行（基于采样百分比和运行时计算的随机值之间的比较）。结果中包含一行的概率与任何其他行无关。这不会减少从磁盘读取采样表所需的时间。如果进一步处理采样输出，则可能会影响总查询时间。 SELECT * FROM users TABLESAMPLE BERNOULLI (50); SYSTEM

帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法 > DQL 语法
使用前必读 - 数据湖探索 DLI
使用前必读 - 数据湖探索 DLI

HetuEngine是华为推出的高性能交互式SQL分析及数据虚拟化引擎，能够与大数据生态无缝融合，实现海量数据的秒级交互式查询。 DLI+HetuEngine能够快速处理大规模数据集的查询请求，迅速和高效从大数据中提取信息，极大地简化了数据的管理和分析流程，提升大数据环境下的索引和查询性能。 TB级数据秒级响应：

帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法
获取Spark作业委托临时凭证用于访问其他云服务 - 数据湖探索 DLI

BasicCredentials。仅支持获取AK、SK、SecurityToken。获取到AK、SK、SecurityToken后，请参考如何使用凭据管理服务替换硬编码的数据库账号密码查询凭据。约束限制仅支持Spark3.3.1版本（Spark通用队列场景）使用委托授权访问临时凭证：

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南
to_char - 数据湖探索 DLI
to_char - 数据湖探索 DLI

string format) 参数说明表1 参数说明参数是否必选参数类型说明 date 是 DATE 或 STRING 代表需要处理的日期。格式为： yyyy-mm-dd yyyy-mm-dd hh:mi:ss yyyy-mm-dd hh:mi:ss.ff3 format

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数 > 日期函数
Hudi Clean操作说明 - 数据湖探索 DLI

什么是Clean Cleaning用于清理Hudi表不再需要的老版本数据文件 (parquet文件或者log文件)，减轻存储压力，提升list操作效率。如何执行Clean 写完数据后clean Spark SQL（设置如下参数，随后执行任意写入SQL时，在满足条件时触发） hoodie.clean

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
CREATE FUNCTION语句 - 数据湖探索 DLI

如果该函数已经存在，则不会进行任何操作。 LANGUAGE JAVA|SCALA Language tag 用于指定 Flink runtime 如何执行这个函数。目前，只支持 JAVA, SCALA，且函数的默认语言为 JAVA。示例创建一个名为STRINGBACK的函数。 create

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > SQL语法约束与定义 > DDL语法定义
next - 数据湖探索 DLI
next - 数据湖探索 DLI

day_of_week) 参数说明表1 参数说明参数是否必选参数类型说明 start_date 是 DATE 或 STRING 代表需要处理的日期。 start_date取值为STRING类型格式时，至少要包含yyyy-mm-dd且不含多余的字符串。格式为： yyyy-mm-dd

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数 > 日期函数
导出查询结果 - 数据湖探索 DLI

partitions”参数可以设置非DLI表在OBS桶中插入的文件个数，同时，为了避免数据倾斜，在INSERT语句后可加上“distribute by rand()”，可以增加处理作业的并发量。例如： insert into table table_target select * from table_source distribute

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考
string_split - 数据湖探索 DLI
string_split - 数据湖探索 DLI

string_split(target, separator) 表1 string_split参数说明参数数据类型说明 target STRING 待处理的目标字符串。说明：如果target为NULL，则返回一个空行。如果target包含两个或多个连续出现的分隔符时，则返回长度为零的空子字符串。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 函数 > 内置函数 > 表值函数
Hadoop jar包冲突，导致Flink提交失败 - 数据湖探索 DLI

frames omitted 原因分析 Flink jar包冲突。用户提交的flink jar 与 DLI 集群中的hdfs jar包存在冲突。处理步骤 1. 将用户pom文件中的的hadoop-hdfs设置为： <dependency> <groupId>org.apache.hadoop</groupId>

帮助中心 > 数据湖探索 DLI > 常见问题 > Flink作业类 > Flink Jar作业类
Spark SQL常用配置项说明 - 数据湖探索 DLI

当子查询中数据不重复的情况下，执行关联子查询，不需要对子查询的结果去重。当子查询中数据重复的情况下，执行关联子查询，会提示异常，必须对子查询的结果做去重处理，比如max(),min()。该参数设置为false：不管子查询中数据重复与否，执行关联子查询时，都需要对子查询的结果去重，比如max()

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考
查看Flink作业详情 - 数据湖探索 DLI

at_least_once：事件至少被处理一次 exactly_once：事件仅被处理一次空闲状态保留时长用于清除GroupBy、RegularJoin、Rank、Depulicate等算子经过最大保留时间后仍未更新的中间状态，默认设置为1小时。脏数据策略作业出现脏数据时的处理策略。作业配置脏数据策略时显示该参数。

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Flink作业 > 管理Flink作业
配置DLI作业桶 - 数据湖探索 DLI

Storage Service，OBS）提供的一种经过优化的高性能文件系统，提供毫秒级别访问时延，以及TB/s级别带宽和百万级别的IOPS，能够快速处理高性能计算（HPC）工作负载。并行文件系统的详细介绍和使用说明，请参见《并行文件系统特性指南》。使用须知请勿将该OBS桶用作其它用途，避免出现作业结果混乱等问题。

帮助中心 > 数据湖探索 DLI > 用户指南 > 准备工作

总条数： 528

上一页
1
...
21
22
23
...
27
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

窗口去重 - 数据湖探索 DLI

Hudi表分区设计规范 - 数据湖探索 DLI

trunc - 数据湖探索 DLI

对象存储OBS源表 - 数据湖探索 DLI

DLI跨源连接报错找不到子网怎么办？ - 数据湖探索 DLI

Hudi Clustering操作说明 - 数据湖探索 DLI

增强型跨源连接绑定队列失败怎么办？ - 数据湖探索 DLI

TABLESAMPLE - 数据湖探索 DLI

使用前必读 - 数据湖探索 DLI

获取Spark作业委托临时凭证用于访问其他云服务 - 数据湖探索 DLI

to_char - 数据湖探索 DLI

Hudi Clean操作说明 - 数据湖探索 DLI

CREATE FUNCTION语句 - 数据湖探索 DLI

next - 数据湖探索 DLI

导出查询结果 - 数据湖探索 DLI

string_split - 数据湖探索 DLI

Hadoop jar包冲突，导致Flink提交失败 - 数据湖探索 DLI

Spark SQL常用配置项说明 - 数据湖探索 DLI

查看Flink作业详情 - 数据湖探索 DLI

配置DLI作业桶 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线