搜索_华为云

Spark 3.1.1版本说明 - 数据湖探索 DLI

Spark 3.1.1版本说明数据湖探索（DLI）遵循开源Spark计算引擎的发布一致性。本文介绍Spark 3.1.1版本所做的变更说明。更多Spark 3.1.1版本说明请参考Spark Release Notes。 Spark 3.1.1版本发布时间版本名称发布时间

 帮助中心 > 数据湖探索 DLI > 服务公告 > 版本支持公告
Spark Jar 使用DEW获取访问凭证读写OBS - 数据湖探索 DLI

其中USER_BUCKET_NAME为用户的桶名，需要进行替换为用户的使用的OBS桶名。参数的值为用户定义在CSMS通用凭证中的键key，其Key对应的value为用户的AK（Access Key Id），需要具备访问OBS对应桶的权限。 spark.hadoop.fs.obs

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南
SHOW TABLES - 数据湖探索 DLI
SHOW TABLES - 数据湖探索 DLI

LIKE pattern [ESCAPE escapeChar] ] 描述这个表达式用于列出指定schema下的所有表。如果没有指定schema，则默认使用当前所在的schema。可选参数like被用于基于关键字来进行匹配。示例 --创建测试表 Create table show_table1(a

帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法 > DDL 语法
修改表分区位置（只支持OBS表） - 数据湖探索 DLI

所要修改位置的表分区必须是已经存在的，否则将报错。 “partition_specs”中的参数默认带有“( )”，例如：PARTITION (dt='2009-09-09',city='xxx')。所指定的新的OBS路径必须是已经存在的绝对路径，否则将报错。若新增分区指定的路径包含

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 分区相关
使用DataSource语法创建DLI表 - 数据湖探索 DLI

用于CTAS命令，将源表的select查询结果或某条数据插入到新创建的DLI表中。表2 OPTIONS参数描述参数是否必选描述默认值 multiLevelDirEnable 否是否迭代查询子目录中的数据。当配置为true时，查询该表时会迭代读取该表路径中所有文件，包含子目录中的文件。 false

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 创建DLI表
Hudi Compaction操作说明 - 数据湖探索 DLI

会将TimeLine里的所有Compaction Plan一个一个去执行，一直到全部都执行完。对于Merge-On-Read表，数据使用列式Parquet文件和行式Avro文件存储，更新被记录到增量文件，然后进行同步/异步compaction生成新版本的列式文件。Merge-O

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > 数据管理维护
Hive维表 - 数据湖探索 DLI
Hive维表 - 数据湖探索 DLI

15”，勾选“保存作业日志”并设置保存作业日志的OBS桶，方便后续查看作业日志。数据类型的使用，请参考Format章节。 Hive 方言支持的 DDL 语句，Flink 1.15 当前仅支持使用Hive语法创建OBS表和使用hive语法的DLI Lakehouse表。使用Hive语法创建OBS表

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > Hive
JSON函数 - 数据湖探索 DLI
JSON函数 - 数据湖探索 DLI

JSON函数 JSON函数使用SQL标准的ISO/IEC TR 19075-6中描述的JSON路径表达式。它们的语法受到ECMAScript的启发并采用了ECMAScript的许多特性，但既不是其子集，也不是其超集。路径表达式有两种，一种是宽松模式，另一种是严格模式。当省略时，

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 函数 > 内置函数
string_split - 数据湖探索 DLI
string_split - 数据湖探索 DLI

如果target为NULL，则返回一个空行。如果target包含两个或多个连续出现的分隔符时，则返回长度为零的空子字符串。如果target未包含指定分隔符，则返回目标字符串。 separator VARCHAR 指定的分隔符，当前仅支持单字符分隔。示例准备测试输入数据表2 测试源表disSource数据和分隔符

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 函数 > 内置函数 > 表值函数
字符类型 - 数据湖探索 DLI
字符类型 - 数据湖探索 DLI

ar。 BINARY 兼容hive的Binary，底层实现为varbinary。 SQL表达式中，支持简单的字符表达式，也支持Unicode方式，一个Unicode字符串是以U&为固定前缀，以4位数值表示的Unicode前需要加转义符。 -- 字符表达式 select 'hello

帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法 > 数据类型
SparkSQL建表参数规范 - 数据湖探索 DLI

preCombineField 预合并键，相同主键的多条数据按该字段进行合并按需必须指定，相同主键的数据会按该字段合并，不能指定多个字段。禁止建表时将hoodie.datasource.hive_sync.enable指定为false。指定为false将导致新写入的分区无法同步到Hive Me

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Spark on Hudi开发规范
创建DLI表关联DDS - 数据湖探索 DLI

authSource=admin" database DDS的数据库名，如果在"url"中同时指定了数据库名，则"url"中的数据库名不生效。 collection DDS中的collection名，如果在"url"中同时指定了collection，则"url"中的collection不生效。 user

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 跨源连接相关 > 跨源连接DDS表
窗口 - 数据湖探索 DLI
窗口 - 数据湖探索 DLI

TUMBLE窗口结束之前，可以根据设置的触发频率周期性地触发窗口，输出从窗口开始时间到当前周期时间窗口内的计算结果值，但不影响最终窗口输出值，从而在窗口结束前的每个周期都可以看到最新的结果。提高数据的精确性在窗口结束后，允许设置延迟时间。根据设置的延迟时间，每到达一个迟到数据，则更新窗口的输出结果注意事项

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据操作语句DML
窗口 - 数据湖探索 DLI
窗口 - 数据湖探索 DLI

TUMBLE窗口结束之前，可以根据设置的触发频率周期性地触发窗口，输出从窗口开始时间到当前周期时间窗口内的计算结果值，但不影响最终窗口输出值，从而在窗口结束前的每个周期都可以看到最新的结果。提高数据的精确性在窗口结束后，允许设置延迟时间。根据设置的延迟时间，每到达一个迟到数据，则更新窗口的输出结果注意事项

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 数据操作语句DML
本文样例表数据准备 - 数据湖探索 DLI

-- 删除分区表数据（删除where子句指定的分区所有数据） delete from hive.web.page_views where ds=date '2020-07-17' and country='US'; --用指定列的查询结果创建新表orders_column_aliased：

帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > 附录
字符串函数和运算符 - 数据湖探索 DLI

这些函数假定输入字符串包含有效的UTF-8编码的Unicode代码点。不会显式检查UTF-8数据是否有效，对于无效的UTF-8数据，函数可能会返回错误的结果。可以使用from_utf8来更正无效的UTF-8数据。此外，这些函数对Unicode代码点进行运算，而不是对用户可见的字符（或字形群集

 帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法 > SQL函数和操作符
regexp_replace1 - 数据湖探索 DLI
regexp_replace1 - 数据湖探索 DLI

STRING 待替换的字符 pattern 是 STRING STRING类型常量或正则表达式。待匹配的模型。更多正则表达式编写规范，请参见正则表达式规范。pattern为空串时返回报错。 replace_string 是 STRING 将匹配pattern的字符串替换后的字符串。 occurrence

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数 > 字符串函数
last - 数据湖探索 DLI
last - 数据湖探索 DLI

expr 是待计算返回结果的表达式。 ignore_nulls 否 BOOLEAN类型，表示是否忽略NULL值。默认值为False。当参数的值为True时，返回窗口中第一条非NULL的值。 partition_clause 否指定分区。分区列的值相同的行被视为在同一个窗口内。 orderby_clause

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数 > 分析窗口函数
first - 数据湖探索 DLI
first - 数据湖探索 DLI

expr 是待计算返回结果的表达式。 ignore_nulls 否 BOOLEAN类型，表示是否忽略NULL值。默认值为False。当参数的值为True时，返回窗口中第一条非NULL的值。 partition_clause 否指定分区。分区列的值相同的行被视为在同一个窗口内。 orderby_clause

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数 > 分析窗口函数
窗口聚合 - 数据湖探索 DLI
窗口聚合 - 数据湖探索 DLI

GROUPING SETS 的每个子列表可以是空的，多列或表达式，它们的解释方式和直接使用 GROUP BY 子句是一样的。一个空的 Grouping Sets 表示所有行都聚合在一个分组下，即使没有数据，也会输出结果。对于 Grouping Sets 中的空子列表，结果数据中的分组或表达式列会用NULL代替。例如，上例中的

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 数据操作语句DML > 窗口

总条数： 891

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Spark 3.1.1版本说明 - 数据湖探索 DLI

Spark Jar 使用DEW获取访问凭证读写OBS - 数据湖探索 DLI

SHOW TABLES - 数据湖探索 DLI

修改表分区位置（只支持OBS表） - 数据湖探索 DLI

使用DataSource语法创建DLI表 - 数据湖探索 DLI

Hudi Compaction操作说明 - 数据湖探索 DLI

Hive维表 - 数据湖探索 DLI

JSON函数 - 数据湖探索 DLI

string_split - 数据湖探索 DLI

字符类型 - 数据湖探索 DLI

SparkSQL建表参数规范 - 数据湖探索 DLI

创建DLI表关联DDS - 数据湖探索 DLI

窗口 - 数据湖探索 DLI

窗口 - 数据湖探索 DLI

本文样例表数据准备 - 数据湖探索 DLI

字符串函数和运算符 - 数据湖探索 DLI

regexp_replace1 - 数据湖探索 DLI

last - 数据湖探索 DLI

first - 数据湖探索 DLI

窗口聚合 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线