搜索_华为云

窗口去重 - 数据湖探索 DLI
窗口去重 - 数据湖探索 DLI

窗口去重功能描述窗口去重是一种特殊的去重，它根据指定的多个列来删除重复的行，保留每个窗口和分区键的第一个或最后一个数据。对于流式查询，与普通去重不同，窗口去重只在窗口的最后返回结果数据，不会产生中间结果。它会清除不需要的中间状态。因此，窗口去重查询在用户不需要更新结果时，

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 数据操作语句DML > 窗口
数据权限列表 - 数据湖探索 DLI

命名表分区） ALTER_TABLE_RECOVER_PARTITION（恢复表分区） ALTER_TABLE_SET_LOCATION（设置分区的路径） SHOW_PARTITIONS（显示所有分区） SHOW_CREATE_TABLE（查看建表语句） TABLE上可以赋权/回收的权限：

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 数据权限相关
查看增强型跨源连接的基本信息 - 数据湖探索 DLI

选择“跨源管理 > 增强型跨源”。进入增强型跨源连接列表页面，选择您需要查看的增强型跨源连接。在列表页面的右上方单击可以自定义显示列，并设置表格内容显示规则、操作列显示规则。在列表页面上方的搜索区域，您可以名称和标签筛选需要的增强型跨源连接。单击页面下方白色区域选择查看增强型跨源连接详细信息。

帮助中心 > 数据湖探索 DLI > 用户指南 > 数据迁移与数据传输 > 配置DLI读写外部数据源数据 > 管理增强型跨源连接
DESCRIBE - 数据湖探索 DLI
DESCRIBE - 数据湖探索 DLI

分区列 numFiles 表的最新版本中的文件个数 sizeInBytes 表的最新快照的大小（以字节为单位） properties 为此表设置的所有属性 minReaderVersion 可以读取该表的最低Reader版本 minWriterVersion 可以写入该表的最低Writer版本

 帮助中心 > 数据湖探索 DLI > Delta SQL语法参考 > Delta SQL语法参考 > Delta DDL语法说明
pyspark样例代码 - 数据湖探索 DLI

IntegerType, StringType, Row from pyspark.sql import SparkSession 创建会话并设置AK/SK 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全。 1

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接CSS
Hudi数据表Archive规范 - 数据湖探索 DLI

automatic默认为true)。 Archive操作并不是每次写数据时都会触发，至少需要满足以下两个条件： Hudi表满足hoodie.keep.max.commits设置的阈值。如果是Flink写hudi至少提交的checkpoint要超过这个阈值；如果是Spark写hudi，写Hudi的次数要超过这个阈值。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表管理操作规范
使用DLI将CSV数据转换为Parquet数据 - 数据湖探索 DLI

使用DLI将CSV数据转换为Parquet数据应用场景 Parquet是面向分析型业务的列式存储格式，这种格式可以加快查询速度，查询Parquet格式数据时，只检查所需要的列并对它们的值执行计算，也就是说，只读取一个数据文件或表的一小部分数据。Parquet还支持灵活的压缩选项

 帮助中心 > 数据湖探索 DLI > 最佳实践
Hive方言 - 数据湖探索 DLI
Hive方言 - 数据湖探索 DLI

Flink目前支持两种SQL 方言: default 和 hive。您需要先切换到Hive 方言，然后才能使用Hive语法编写。下面介绍如何使用SQL设置方言。您可以为执行的每个语句动态切换方言。无需重新启动会话即可使用其他方言。语法格式 SQL 方言可以通过 table.sql-dialect

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > Hive
导出查询结果 - 数据湖探索 DLI

file_format为csv时，options参数可以参考表3。注意事项通过配置“spark.sql.shuffle.partitions”参数可以设置非DLI表在OBS桶中插入的文件个数，同时，为了避免数据倾斜，在INSERT语句后可加上“distribute by rand()”，可以增加处理作业的并发量。例如：

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考
UNION | INTERSECT | EXCEPT - 数据湖探索 DLI

DISTINCT] query ALL和DISTINCT表示是否返回包含重复的行。ALL返回所有的行；DISTINCT返回只包含唯一的行。如果未设置，默认为DISTINCT。 INTERSECT query INTERSECT [DISTINCT] query INTERSECT仅返回

 帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法 > DQL 语法
Hadoop jar包冲突，导致Flink提交失败 - 数据湖探索 DLI

jar包冲突。用户提交的flink jar 与 DLI 集群中的hdfs jar包存在冲突。处理步骤 1. 将用户pom文件中的的hadoop-hdfs设置为： <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>h

帮助中心 > 数据湖探索 DLI > 常见问题 > Flink作业类 > Flink Jar作业类
典型场景示例：配置DLI与内网数据源的网络联通 - 数据湖探索 DLI

登录DLI管理控制台，在左侧导航栏单击“跨源管理”，在跨源管理界面，单击“增强型跨源”，单击“创建”。在增强型跨源创建界面，配置具体的跨源连接参数。具体参考如下。连接名称：设置具体的增强型跨源名称。弹性资源池：选择DLI的队列。（未添加至资源池的队列，请直接选择队列名称。）虚拟私有云：选择步骤1：获取外部数据

 帮助中心 > 数据湖探索 DLI > 用户指南 > 数据迁移与数据传输 > 配置DLI读写外部数据源数据
类型转换函数 - 数据湖探索 DLI

返回输入表达式的数据类型的字符串表示形式。默认情况下返回的字符串是一个摘要字符串，可能会为了可读性而省略某些细节。如果 force_serializable 设置为 TRUE，则字符串表示可以保留在目录中的完整数据类型。请注意，特别是匿名的内联数据类型没有可序列化的字符串表示。在这种情况下返回 NULL。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 函数 > 内置函数
CONVERT TO DELTA - 数据湖探索 DLI
CONVERT TO DELTA - 数据湖探索 DLI

转换过程会收集统计信息，以提升转换后的 Delta 表的查询性能。如果提供表名，则元存储也将更新，以反映该表现在是 Delta 表。注意事项分区表转换需要设置参数spark.sql.forcePartitionPredicatesOnPartitionedTable.enabled为false。

帮助中心 > 数据湖探索 DLI > Delta SQL语法参考 > Delta SQL语法参考 > Delta DDL语法说明
创建全局变量 - 数据湖探索 DLI

下划线开头，且不能超过128字符。 var_value 是 String 全局变量值。 is_sensitive 否 Boolean 是否设置为敏感变量。默认为“false”。响应消息表3 响应参数说明参数名称是否必选参数类型说明 is_success 否 Boolean

帮助中心 > 数据湖探索 DLI > API参考 > 全局变量相关API
SHOW_FS_PATH_DETAIL - 数据湖探索 DLI

storage_path 指定目录的完整FS绝对路径 space_consumed 返回文件/目录在集群中占用的实际空间，即它考虑了为集群设置的复制因子 quota 名称配额（名称配额是对当前目录树中的文件和目录名称数量的硬性限制） space_quota 空间配额（空间配额是对

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi SQL语法参考 > Hudi CALL COMMAND语法说明
Spark2.4.x与Spark3.3.x版本在SQL队列的差异对比 - 数据湖探索 DLI

x：空值在CSV数据源中为""。 Spark3.3.x：空值在CSV数据源中无引号。如需在Spark3.3.x版本中恢复Spark2.4.x的格式，可以通过设置spark.sql.legacy.nullValueWrittenAsQuotedEmptyStringCsv为 true来实现。升级引擎版本后是否对作业有影响：

帮助中心 > 数据湖探索 DLI > 服务公告 > 版本支持公告 > Spark2.4.x与Spark3.3.x版本差异对比
Canal Format - 数据湖探索 DLI
Canal Format - 数据湖探索 DLI

Boolean 当解析异常时，是跳过当前字段或行，还是抛出错误失败（默认为 false，即抛出错误失败）。如果忽略字段的解析异常，则会将该字段值设置为null。 canal-json.timestamp-format.standard 否 'SQL' String 指定输入和输出时间戳

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > Format
JSON Format - 数据湖探索 DLI
JSON Format - 数据湖探索 DLI

Boolean 当解析异常时，是跳过当前字段或行，还是抛出错误失败（默认为 false，即抛出错误失败）。如果忽略字段的解析异常，则会将该字段值设置为null。 json.timestamp-format.standard 否 'SQL' String 声明输入和输出的TIMESTAMP和TIMESTAMP

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > Format
开启或关闭数据多版本 - 数据湖探索 DLI

RESTORE TABLE [db_name.]table_name TO initial layout; 关键字 SET TBLPROPERTIES：设置表属性，开启多版本功能。 UNSET TBLPROPERTIES：取消表属性，关闭多版本功能。参数说明表1 参数描述参数描述 db_name

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 修改表

总条数： 499

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

窗口去重 - 数据湖探索 DLI

数据权限列表 - 数据湖探索 DLI

查看增强型跨源连接的基本信息 - 数据湖探索 DLI

DESCRIBE - 数据湖探索 DLI

pyspark样例代码 - 数据湖探索 DLI

Hudi数据表Archive规范 - 数据湖探索 DLI

使用DLI将CSV数据转换为Parquet数据 - 数据湖探索 DLI

Hive方言 - 数据湖探索 DLI

导出查询结果 - 数据湖探索 DLI

UNION | INTERSECT | EXCEPT - 数据湖探索 DLI

Hadoop jar包冲突，导致Flink提交失败 - 数据湖探索 DLI

典型场景示例：配置DLI与内网数据源的网络联通 - 数据湖探索 DLI

类型转换函数 - 数据湖探索 DLI

CONVERT TO DELTA - 数据湖探索 DLI

创建全局变量 - 数据湖探索 DLI

SHOW_FS_PATH_DETAIL - 数据湖探索 DLI

Spark2.4.x与Spark3.3.x版本在SQL队列的差异对比 - 数据湖探索 DLI

Canal Format - 数据湖探索 DLI

JSON Format - 数据湖探索 DLI

开启或关闭数据多版本 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线