搜索_华为云

如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度 - 数据湖探索 DLI

Spark作业在执行shuffle类语句，包括group by、join等场景时，常常会出现数据倾斜的问题，导致作业任务执行缓慢。该问题可以通过设置spark.sql.shuffle.partitions提高shuffle read task的并行度来进行解决。设置spark.sql.shuffle.partitions参数提高并行度

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
在DLI使用Hudi提交Spark Jar作业 - 数据湖探索 DLI

可以选择配置作业名称，便于识别和筛选。配置”应用程序”，路径指向上一步上传至OBS的Spark jar包。配置委托。选择提交DLI作业所需的委托。自定义委托请参考创建DLI自定义委托。配置”主类（--class）”，为上一步中所写的，包含需要执行的main函数的类的全名。在”Sp

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI中使用Hudi开发作业
Hudi表分区设计规范 - 数据湖探索 DLI

为各个分区的数据量是会有波动的，分区下桶的个数设计一般会按照最大分区数据量计算，这样会出现越细粒度的分区，桶的个数会冗余越多。例如：采用天级分区，平均的日增数据量是3GB，最多一天的日志是8GB，这个会采用Bucket桶数= 8GB/2GB = 4 来创建表；每天的更新数据占比

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表设计规范
窗口 - 数据湖探索 DLI
窗口 - 数据湖探索 DLI

e_attr, interval) 返回一个可用于后续需要基于时间的操作的处理时间参数，比如基于时间窗口的join以及分组窗口或分组窗口上的聚合. 注意：辅助函数必须使用与GROUP BY 子句中的分组窗口函数完全相同的参数来调用. 示例 1 2 3 4 5 6 7

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据操作语句DML
窗口 - 数据湖探索 DLI
窗口 - 数据湖探索 DLI

返回相对应的滚动、滑动和会话窗口范围以外的上界时间戳。范围以外的上界时间戳不可以在随后基于时间的操作中，作为行时间属性使用，比如基于时间窗口的join以及分组窗口或分组窗口上的聚合。 TUMBLE_ROWTIME(time_attr, interval) HOP_ROWTIME(time_attr

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 数据操作语句DML
在Spark SQL作业中使用UDAF - 数据湖探索 DLI

OBS控制台将生成的UDAF函数Jar包文件上传到OBS目录下。 5 创建DLI程序包 DLI控制台选择刚上传到OBS的UDAF函数的Jar文件，由DLI进行纳管。 6 创建DLI的UDAF函数 DLI控制台在DLI控制台的SQL作业管理界面创建使用的UDAF函数。 7 验证和使用DLI的UDAF函数

 帮助中心 > 数据湖探索 DLI > 开发指南 > SQL作业开发指南
在Spark SQL作业中使用UDTF - 数据湖探索 DLI

上传Jar包到OBS OBS控制台将生成的UDTF函数Jar包文件上传到OBS目录下。 5 创建DLI的UDTF函数 DLI控制台在DLI控制台的SQL作业管理界面创建使用的UDTF函数。 6 验证和使用DLI的UDTF函数 DLI控制台在DLI作业中使用创建的UDTF函数。操作步骤新

 帮助中心 > 数据湖探索 DLI > 开发指南 > SQL作业开发指南
Teradata函数 - 数据湖探索 DLI
Teradata函数 - 数据湖探索 DLI

datetime函数兼容的格式字符串。下表基于Teradata参考手册，描述了受支持的格式说明符。说明符说明 - / , . ; : 忽略标点符号 dd 一个月中的第几日（1-31） hh 一天中的第几个小时（1-12） hh24 一天中的第几个小时（0-23） mi 分钟（0-59）

帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法 > SQL函数和操作符
Hive维表 - 数据湖探索 DLI
Hive维表 - 数据湖探索 DLI

和 Hive非分区表的临时连接，对于分区表，Flink 支持自动跟踪Hive表的最新分区。详情可参考：Apache Flink Hive Read & Write 注意事项 Flink目前不支持与Hive表进行基于事件时间event-time的时间关联。 Temporal Join

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > Hive
窗口关联 - 数据湖探索 DLI
窗口关联 - 数据湖探索 DLI

这几种窗口关联的语法非常相似，我们在这里只举一个 FULL OUTER JOIN 的例子。当执行窗口关联时，所有具有相同 key 和相同滚动窗口的数据会被关联在一起。这里给出一个基于 TUMBLE Window TVF 的窗口连接的例子。在下面的例子中，通过将 join 的时间区域限定为固定的

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 数据操作语句DML > 窗口
Spark SQL语法概览 - 数据湖探索 DLI

Spark SQL语法概览本章节介绍了目前DLI所提供的Spark SQL语法列表。参数说明，示例等详细信息请参考具体的语法说明。表1 批作业SQL语法语法分类操作链接数据库相关语法创建数据库删除数据库查看指定数据库查看所有数据库创建OBS表相关语法使用DataSource语法创建OBS表

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考
创建函数 - 数据湖探索 DLI
创建函数 - 数据湖探索 DLI

REPLACE，或者替换所有作业中的函数F1为F2。需要重启Spark SQL队列后新创建的自定义函数F2生效需要重启Spark SQL队列，影响当前运行的作业。重启队列后，影响F1原有功能，F1的功能变为和F2一样。场景二在原有程序包类的基础上新增了类，新创建的函数指定为新增的类，包名不变。

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 自定义函数
计费样例 - 数据湖探索 DLI
计费样例 - 数据湖探索 DLI

示例价格仅供参考，实际计算请以DLI产品价格详情中的信息为准。更多示例参考DLI产品价格详情。计费构成分析基于此案例，可详细计算出按需计费和包年/包月两种不同的计费模式的消费情况。此案例中的单价仅为示例，且计算出的费用为估算值。单价的变动和实际场景中计算出来的费用可能会有偏差。请以华为云官网发布的数据为准。计费模式

 帮助中心 > 数据湖探索 DLI > 计费说明
Data masking函数 - 数据湖探索 DLI

row)) mask_hash(string|char|varchar str) →varchar 描述：返回基于str的散列值。散列是一致的，可以用于跨表连接被屏蔽的值。对于非字符串类型，返回NULL。 select mask_hash('panda');

帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法 > SQL函数和操作符
percent - 数据湖探索 DLI
percent - 数据湖探索 DLI

percent_rank percent_rank函数为窗口的ORDER BY子句所指定列中值的返回值，但以介于0和1之间的小数形式表示，计算方法为 (分组内当前行的RANK值-1)/(分组内总行数-1)。使用限制窗口函数的使用限制如下：窗口函数只能出现在select语句中。

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数 > 分析窗口函数
Hbase源表 - 数据湖探索 DLI
Hbase源表 - 数据湖探索 DLI

12”，勾选“保存作业日志”并设置保存作业日志的OBS桶，方便后续查看作业日志。创建HBase源表的列簇必须定义为ROW类型，字段名对应列簇名（column family），嵌套的字段名对应列限定符名（column qualifier）。用户只需在表结构中声明查询中使用的的列簇和列限定符。除了ROW类型的列，剩下的原子数据类型字段（比如，STRING

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建源表
Hbase源表 - 数据湖探索 DLI
Hbase源表 - 数据湖探索 DLI

SQL使用DEW管理访问凭据创建HBase源表的列簇必须定义为ROW类型，字段名对应列簇名（column family），嵌套的字段名对应列限定符名（column qualifier）。用户只需在表结构中声明查询中使用的的列簇和列限定符。除了ROW类型的列，剩下的原子数据类型字段（比如，STRING

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > Hbase
rank - 数据湖探索 DLI
rank - 数据湖探索 DLI

partition_clause 否指定分区。分区列的值相同的行被视为在同一个窗口内。 orderby_clause 否指定数据在一个窗口内如何排序。返回值说明返回INT类型的值。 a为NULL，则返回NULL。示例代码为便于理解函数的使用方法，本文为您提供源数据，基于源数据提供函数相关示例。创

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数 > 分析窗口函数
身份认证与访问控制 - 数据湖探索 DLI

Management，简称IAM）进行精细的权限管理。该服务提供用户身份认证、权限分配、访问控制等功能，可以帮助您安全的控制华为云资源的访问。关于IAM的详细介绍，请参见IAM产品介绍。权限根据授权精细程度分为角色和策略。角色：IAM最初提供的一种根据用户的工作职能定义权限的粗粒度授权机制。该机

 帮助中心 > 数据湖探索 DLI > 产品介绍 > 安全
认证鉴权 - 数据湖探索 DLI
认证鉴权 - 数据湖探索 DLI

Token认证 Token在计算机系统中代表令牌（临时）的意思，拥有Token就代表拥有某种权限。Token认证就是在调用API的时候将Token加到请求消息头，从而通过身份认证，获得操作API的权限。 Token的有效期为24小时，需要使用一个Token鉴权时，可以先缓存起来，避免频繁调用。

帮助中心 > 数据湖探索 DLI > API参考 > 如何调用API

总条数： 1272

上一页
1
...
9
10
11
...
64
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度 - 数据湖探索 DLI

在DLI使用Hudi提交Spark Jar作业 - 数据湖探索 DLI

Hudi表分区设计规范 - 数据湖探索 DLI

窗口 - 数据湖探索 DLI

窗口 - 数据湖探索 DLI

在Spark SQL作业中使用UDAF - 数据湖探索 DLI

在Spark SQL作业中使用UDTF - 数据湖探索 DLI

Teradata函数 - 数据湖探索 DLI

Hive维表 - 数据湖探索 DLI

窗口关联 - 数据湖探索 DLI

Spark SQL语法概览 - 数据湖探索 DLI

创建函数 - 数据湖探索 DLI

计费样例 - 数据湖探索 DLI

Data masking函数 - 数据湖探索 DLI

percent - 数据湖探索 DLI

Hbase源表 - 数据湖探索 DLI

Hbase源表 - 数据湖探索 DLI

rank - 数据湖探索 DLI

身份认证与访问控制 - 数据湖探索 DLI

认证鉴权 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线