检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
DLI中使用Hudi开发作业 在DLI使用Hudi提交Spark SQL作业 在DLI使用Hudi提交Spark Jar作业 在DLI使用Hudi提交Flink SQL作业 使用HetuEngine on Hudi
对象存储OBS源表 功能描述 文件系统连接器可用于将单个文件或整个目录的数据读取到单个表中。 当使用目录作为source路径时,对目录中的文件进行 无序的读取。更多信息参考文件系统 SQL 连接器 语法格式 1 2 3 4 5 6 7 8 9 10 11 CREATE
Spark表数据维护规范 禁止通过Alter命令修改表关键属性信息:type/primaryKey/preCombineField/hoodie.index.type 错误示例,执行如下语句修改表关键属性: alter table dsrTable set tblproperties('type'='xx');
first_value first_value函数用于取当前行所对应窗口的第一条数据的值。 使用限制 窗口函数的使用限制如下: 窗口函数只能出现在select语句中。 窗口函数中不能嵌套使用窗口函数和聚合函数。 窗口函数不能和同级别的聚合函数一起使用。 命令格式 first_value(<expr>[
split_part split_part函数用于依照分隔符separator拆分字符串str,返回从start部分到end部分的子串(闭区间)。 命令格式 split_part(string <str>, string <separator>, bigint <start>[,
char_matchcount char_matchcount函数用于计算str1中有多少个字符出现在str2中。 命令格式 char_matchcount(string <str1>, string <str2>) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 str1、str2
last_value last_value函数用于取当前行所对应窗口的最后一条数据的值。 使用限制 窗口函数的使用限制如下: 窗口函数只能出现在select语句中。 窗口函数中不能嵌套使用窗口函数和聚合函数。 窗口函数不能和同级别的聚合函数一起使用。 命令格式 last_value(<expr>[
parse_url parse_url函数用于返回给定URL的指定部分,partToExtract的有效值包括HOST,PATH, QUERY, REF, PROTOCOL, AUTHORITY,FILE和USERINFO。 例如:parse_url('http://facebook
percent_rank percent_rank函数为窗口的ORDER BY子句所指定列中值的返回值,但以介于0和1之间的小数形式表示,计算方法为 (分组内当前行的RANK值-1)/(分组内总行数-1)。 使用限制 窗口函数的使用限制如下: 窗口函数只能出现在select语句中。
reverse reverse函数用于返回倒序字符串。 命令格式 reverse(string <str>) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 str 是 STRING 如果输入为BIGINT、DOUBLE、DECIMAL或DATETIME类型,则会隐式转换为STRING类型后参与运算。
row_number row_number函数用于计算行号。从1开始递增。 使用限制 窗口函数的使用限制如下: 窗口函数只能出现在select语句中。 窗口函数中不能嵌套使用窗口函数和聚合函数。 窗口函数不能和同级别的聚合函数一起使用。 命令格式 row_number() ove
substr/substring substr、substring函数用于返回字符串str从start_position开始,长度为length的子串。 命令格式 substr(string <str>, bigint <start_position>[, bigint <length>])
substring_index substring_index函数用于截取字符串str第count个分隔符之前的字符串。如果count为正,则从左边开始截取。如果count为负,则从右边开始截取。 命令格式 substring_index(string <str>, string
Hudi表索引设计规范 规则 禁止修改表索引类型。 Hudi表的索引会决定数据存储方式,随意修改索引类型会导致表中已有的存量数据与新增数据之间出现数据重复和数据准确性问题。常见的索引类型如下: 布隆索引:Spark引擎独有索引,采用bloomfiter机制,将布隆索引内容写入到Parquet文件的footer中。
Hudi表分区设计规范 规则 分区键不可以被更新: Hudi具有主键唯一性机制,但在分区表的场景下通常只能保证分区内主键唯一,因此如果分区键的值发生变更后,会导致相同主键的行记录出现多条的情况。在以日期分区的场景,可采用数据的创建时间为分区字段,切记不要采用数据更新时间做分区。
"admin") .option("es.net.http.auth.pass", "***") 此处的参数为身份验证的账号和密码,也是登录Kibana的账号和密码。 .option("es.net.ssl", "true") 如果CSS安全集群开启了HTTPS访问,此处需要设置为“t
Hudi数据表Archive规范 Archive(归档)是为了减轻Hudi读写元数据的压力,所有的元数据都存放在这个路径:Hudi表根目录/.hoodie目录,如果.hoodie目录下的文件数量超过10000就会发现Hudi表有非常明显的读写时延。 规则 Hudi表必须执行Archive。
该报错信息可能是由于OBS桶被设置为了DLI日志桶,而日志桶不能用于DLI的其他业务功能。 您可以按以下操作步骤进行查询: 检查该OBS桶是否被设置为了DLI日志桶。 在DLI管理控制台的“全局配置 > 作业配置” 页查看对应OBS桶是否被设置为了DLI日志桶,日志桶不能用于DLI的其他业务功能中。 确认桶是否应用于其他业务功能。
如果当前资源配额限制无法满足使用需要,您可以申请扩大配额。 怎样查看我的配额 登录管理控制台。 单击管理控制台左上角的,选择区域和项目。 在页面右上角,选择“资源 > 我的配额”。 系统进入“服务配额”页面。 图1 我的配额 您可以在“服务配额”页面,查看各项资源的总配额及使用情况。 如果当前配额不
如果当前资源配额限制无法满足使用需要,您可以申请扩大配额。 怎样查看我的配额 登录管理控制台。 单击管理控制台左上角的,选择区域和项目。 在页面右上角,选择“资源 > 我的配额”。 系统进入“服务配额”页面。 图1 我的配额 您可以在“服务配额”页面,查看各项资源的总配额及使用情况。 如果当前配额不