检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
substring_index substring_index函数用于截取字符串str第count个分隔符之前的字符串。如果count为正,则从左边开始截取。如果count为负,则从右边开始截取。 命令格式 substring_index(string <str>, string
Hudi表索引设计规范 规则 禁止修改表索引类型。 Hudi表的索引会决定数据存储方式,随意修改索引类型会导致表中已有的存量数据与新增数据之间出现数据重复和数据准确性问题。常见的索引类型如下: 布隆索引:Spark引擎独有索引,采用bloomfiter机制,将布隆索引内容写入到Parquet文件的footer中。
Hudi表分区设计规范 规则 分区键不可以被更新: Hudi具有主键唯一性机制,但在分区表的场景下通常只能保证分区内主键唯一,因此如果分区键的值发生变更后,会导致相同主键的行记录出现多条的情况。在以日期分区的场景,可采用数据的创建时间为分区字段,切记不要采用数据更新时间做分区。
AS:使用CTAS创建表。 参数说明 表1 参数说明 参数 是否必选 描述 db_name 否 Database名称。 由字母、数字和下划线(_)组成。不能是纯数字,且不能以数字和下划线开头。 table_name 是 Database中的待创建的表名。 由字母、数字和下划线(_)组成。不能是纯数字,且不能以数字和下划线开头。匹配规则为:^(
groupby_expression 格式 无。 说明 包含GROUP BY的表达式。 父主题: 标示符
input_expression 格式 无。 说明 CASE WHEN的输入表达式。 父主题: 标示符
input_format_classname 格式 无。 说明 指定输入格式的类名,如org.apache.hadoop.mapred.TextInputFormat。 父主题: 标示符
output_format_classname 格式 无。 说明 指定输出格式的类名,如org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat。 父主题: 标示符
partition_col_name 格式 无。 说明 分区列名,即分区字段名称,仅支持字符串类型。 父主题: 标示符
serde_name 格式 无。 说明 指定serde的名称。 父主题: 标示符
sub_query 格式 无。 说明 指子查询。 父主题: 标示符
where_condition 格式 说明 语法 描述 where_condition where逻辑判断条件。 and 逻辑运算符:与。 or 逻辑运算符:或。 not 逻辑运算符:非。 ( 子逻辑判断条件开始。 ) 子逻辑判断条件结束。 condition 逻辑判断条件。 exists
删除视图 功能描述 删除视图。 语法格式 1 DROP VIEW [IF EXISTS] [db_name.]view_name; 关键字 DROP:删除指定视图的元数据。虽然视图和表有很多共同之处,但是DROP TABLE不能用来删除VIEW。 注意事项 所要删除的视图必须是已经存在的,否则会出错,可以通过IF
ORDER BY 功能描述 按字段实现查询结果的全局排序。 语法格式 1 2 3 SELECT attr_expr_list FROM table_reference ORDER BY col_name [ASC | DESC] [,col_name [ASC | DESC]
WHERE 功能描述 在WHERE子句中嵌套子查询,利用子查询的结果作为过滤条件。 语法格式 1 2 SELECT [ALL | DISTINCT] attr_expr_list FROM table_reference WHERE {col_name operator (sub_query)
删除函数 功能描述 删除函数。 语法格式 1 DROP [TEMPORARY] FUNCTION [IF EXISTS] [db_name.] function_name; 关键字 TEMPORARY:所删除的函数是否为临时函数。 IF EXISTS:所删除的函数不存在时使用,可避免系统报错。
Hudi存储结构 Hudi在写入数据时会根据设置的存储路径、表名、分区结构等属性生成Hudi表。 在DLI环境,Hudi表的数据文件存储在OBS上,因此可以通过查看OBS文件检查。 如下,展示了Hudi 多级分区COW表存储结构的示意。 hudi_table ├── .hoodie
Flink Opensource SQL Elasticsearch结果表failure-handler参数填写retry_rejected导致提交失败 问题说明 Flink Opensource SQL Elasticsearch结果表failure-handler参数填写retry_rejected导致提交失败
按表达式GROUP BY 功能描述 按表达式对表进行分组操作。 语法格式 1 2 SELECT attr_expr_list FROM table_reference GROUP BY groupby_expression [, groupby_expression, ...];
cume_dist cume_dist函数用于求累计分布,相当于求分区中大于等于或小于等于当前行的数据在分区中的占比。 使用限制 窗口函数的使用限制如下: 窗口函数只能出现在select语句中。 窗口函数中不能嵌套使用窗口函数和聚合函数。 窗口函数不能和同级别的聚合函数一起使用。