检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark作业在执行shuffle类语句,包括group by、join等场景时,常常会出现数据倾斜的问题,导致作业任务执行缓慢。 该问题可以通过设置spark.sql.shuffle.partitions提高shuffle read task的并行度来进行解决。 设置spark.sql.shuffle.partitions参数提高并行度
可以选择配置作业名称,便于识别和筛选。 配置”应用程序”,路径指向上一步上传至OBS的Spark jar包。 配置委托。选择提交DLI作业所需的委托。自定义委托请参考创建DLI自定义委托 。 配置”主类(--class)”,为上一步中所写的,包含需要执行的main函数的类的全名。 在”Sp
为各个分区的数据量是会有波动的,分区下桶的个数设计一般会按照最大分区数据量计算,这样会出现越细粒度的分区,桶的个数会冗余越多。例如: 采用天级分区,平均的日增数据量是3GB,最多一天的日志是8GB,这个会采用Bucket桶数= 8GB/2GB = 4 来创建表;每天的更新数据占比
e_attr, interval) 返回一个可用于后续需要基于时间的操作的 处理时间参数,比如基于时间窗口的join以及分组窗口或分组窗口上的聚合. 注意:辅助函数必须使用与GROUP BY 子句中的分组窗口函数完全相同的参数来调用. 示例 1 2 3 4 5 6 7
返回相对应的滚动、滑动和会话窗口范围以外的上界时间戳。 范围以外的上界时间戳不可以 在随后基于时间的操作中,作为行时间属性使用,比如基于时间窗口的join以及分组窗口或分组窗口上的聚合。 TUMBLE_ROWTIME(time_attr, interval) HOP_ROWTIME(time_attr
OBS控制台 将生成的UDAF函数Jar包文件上传到OBS目录下。 5 创建DLI程序包 DLI控制台 选择刚上传到OBS的UDAF函数的Jar文件,由DLI进行纳管。 6 创建DLI的UDAF函数 DLI控制台 在DLI控制台的SQL作业管理界面创建使用的UDAF函数。 7 验证和使用DLI的UDAF函数
上传Jar包到OBS OBS控制台 将生成的UDTF函数Jar包文件上传到OBS目录下。 5 创建DLI的UDTF函数 DLI控制台 在DLI控制台的SQL作业管理界面创建使用的UDTF函数。 6 验证和使用DLI的UDTF函数 DLI控制台 在DLI作业中使用创建的UDTF函数。 操作步骤 新
datetime函数兼容的格式字符串。下表基于Teradata参考手册,描述了受支持的格式说明符。 说明符 说明 - / , . ; : 忽略标点符号 dd 一个月中的第几日(1-31) hh 一天中的第几个小时(1-12) hh24 一天中的第几个小时(0-23) mi 分钟(0-59)
和 Hive非分区表的临时连接,对于分区表,Flink 支持自动跟踪Hive表的最新分区。详情可参考:Apache Flink Hive Read & Write 注意事项 Flink目前不支持与Hive表进行基于事件时间event-time的时间关联。 Temporal Join
这几种窗口关联的语法非常相似,我们在这里只举一个 FULL OUTER JOIN 的例子。 当执行窗口关联时,所有具有相同 key 和相同滚动窗口的数据会被关联在一起。这里给出一个基于 TUMBLE Window TVF 的窗口连接的例子。 在下面的例子中,通过将 join 的时间区域限定为固定的
Spark SQL语法概览 本章节介绍了目前DLI所提供的Spark SQL语法列表。参数说明,示例等详细信息请参考具体的语法说明。 表1 批作业SQL语法 语法分类 操作链接 数据库相关语法 创建数据库 删除数据库 查看指定数据库 查看所有数据库 创建OBS表相关语法 使用DataSource语法创建OBS表
REPLACE,或者替换所有作业中的函数F1为F2。 需要重启Spark SQL队列后新创建的自定义函数F2生效 需要重启Spark SQL队列,影响当前运行的作业。 重启队列后,影响F1原有功能,F1的功能变为和F2一样。 场景二 在原有程序包类的基础上新增了类,新创建的函数指定为新增的类,包名不变。
示例价格仅供参考,实际计算请以DLI产品价格详情中的信息为准。 更多示例参考DLI产品价格详情。 计费构成分析 基于此案例,可详细计算出按需计费和包年/包月两种不同的计费模式的消费情况。 此案例中的单价仅为示例,且计算出的费用为估算值。单价的变动和实际场景中计算出来的费用可能会有偏差。请以华为云官网发布的数据为准。 计费模式
row)) mask_hash(string|char|varchar str) →varchar 描述:返回基于str的散列值。散列是一致的,可以用于跨表连接被屏蔽的值。对于非字符串类型,返回NULL。 select mask_hash('panda');
percent_rank percent_rank函数为窗口的ORDER BY子句所指定列中值的返回值,但以介于0和1之间的小数形式表示,计算方法为 (分组内当前行的RANK值-1)/(分组内总行数-1)。 使用限制 窗口函数的使用限制如下: 窗口函数只能出现在select语句中。
12”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。 创建HBase源表的列簇必须定义为ROW类型,字段名对应列簇名(column family),嵌套的字段名对应列限定符名(column qualifier)。 用户只需在表结构中声明查询中使用的的列簇和列限定符。除了ROW类型的列,剩下的原子数据类型字段(比如,STRING
SQL使用DEW管理访问凭据 创建HBase源表的列簇必须定义为ROW类型,字段名对应列簇名(column family),嵌套的字段名对应列限定符名(column qualifier)。 用户只需在表结构中声明查询中使用的的列簇和列限定符。除了ROW类型的列,剩下的原子数据类型字段(比如,STRING
partition_clause 否 指定分区。分区列的值相同的行被视为在同一个窗口内。 orderby_clause 否 指定数据在一个窗口内如何排序。 返回值说明 返回INT类型的值。 a为NULL,则返回NULL。 示例代码 为便于理解函数的使用方法,本文为您提供源数据,基于源数据提供函数相关示例。创
Management,简称IAM)进行精细的权限管理。该服务提供用户身份认证、权限分配、访问控制等功能,可以帮助您安全的控制华为云资源的访问。 关于IAM的详细介绍,请参见IAM产品介绍。 权限根据授权精细程度分为角色和策略。 角色:IAM最初提供的一种根据用户的工作职能定义权限的粗粒度授权机制。该机
Token认证 Token在计算机系统中代表令牌(临时)的意思,拥有Token就代表拥有某种权限。Token认证就是在调用API的时候将Token加到请求消息头,从而通过身份认证,获得操作API的权限。 Token的有效期为24小时,需要使用一个Token鉴权时,可以先缓存起来,避免频繁调用。