检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
soundex soundex函数用于从str返回一个soundex字符串,如soundex('Miller')= M460。 命令格式 soundex(string <str>) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 str 是 STRING 待转换的字符串。
months_between months_between函数用于返回date1与date2之间的月份差。 命令格式 months_between(string date1, string date2) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 date1 是 DATE
instr1 instr1函数用于计算子串str2在字符串str1中的位置。 相似函数:instr,instr函数用于返回substr在str中最早出现的下标。但是instr不支持指定起始搜索位置和匹配次数。 命令格式 instr1(string <str1>, string <str2>[
percentlie percentile函数用于计算精确百分位数,适用于小数据量。先对指定列升序排列,然后取第p位百分数的精确值。 命令格式 percentile(colname,DOUBLE p) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 colname 是 STRING类型
initcap initcap函数用于将文本字符串转换成首字母大写其余字母小写的形式。 命令格式 initcap(string A) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 A 是 STRING 待转换的文本字符串。 返回值说明 返回一个STRING类型字符串,
encode encode函数用于使用charset的编码方式对str进行编码。 命令格式 encode(string <str>, string <charset>) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 str 是 STRING 至少要指定2个字符串。 S
repeat repeat函数用于返回将str重复n次后的字符串。 命令格式 repeat(string <str>, bigint <n>) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 str 是 STRING 如果输入为BIGINT、DOUBLE、DECIMAL
max_pt max_pt函数用于返回分区表的一级分区中有数据的分区的最大值,按字母排序,且读取该分区下对应的数据。 命令格式 max_pt(<table_full_name>) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 table_full_name 是 STRING类型。
variance/var_pop variance/var_pop函数用于返回列的方差。 命令格式 variance(col), var_pop(col) 参数说明 表1 参数说明 参数 是否必选 说明 col 是 数据类型为数值的列。 参数为其他类型的列返回NULL。 返回值说明
lace函数的功能略有差异: Spark2.4.5版本及以前版本:regexp_replace函数用于将source字符串中匹配pattern的子串替换成指定字符串replace_string后,返回结果字符串。 Spark3.1.1版本:regexp_replace函数用于将s
from_utc_timestamp from_utc_timestamp函数用于计算将UTC的时间戳转化为timezone所对应的UNIX格式的时间戳。 命令格式 from_utc_timestamp(string timestamp, string timezone) 参数说明
add_months add_months函数用于计算日期值增加指定月数后的日期。即start_date在num_months个月之后的date。 命令格式 add_months(string start_date, int num_months) 参数说明 表1 参数说明 参数
date_format date_format函数用于将date按照format指定的格式转换为字符串。 命令格式 date_format(string date, string format) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 date 是 DATE 或
trunc_numeric trunc_numeric函数用于将输入值number截取到指定小数点位置。 命令格式 trunc_numeric(<number>[, bigint<decimal_places>]) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 number
levenshtein levenshtein函数用于返回两个字符串之间的Levenshtein距离,如levenshtein('kitten','sitting') =3。 Levenshtein距离,是编辑距离的一种。指两个字串之间,由一个转成另一个所需的最少编辑操作次数。 命令格式
replace replace函数用于用new字符串替换str字符串中与old字符串完全重合的部分并返回替换后的str。 如果没有重合的字符串,返回原str。 命令格式 replace(string <str>, string <old>, string <new>) 参数说明 表1
创建一个用户自定义函数 语法说明 IF NOT EXISTS 若该函数已经存在,则不会进行任何操作。 LANGUAGE JAVA|SCALA Language tag 用于指定 Flink runtime 如何执行这个函数。目前,只支持 JAVA 和 SCALA,且函数的默认语言为
locate locate函数用于在str中查找substr的位置。您可以通过start_pos指定开始查找的位置,从1开始计数。 命令格式 locate(string <substr>, string <str>[, bigint <start_pos>]) 参数说明 表1 参数说明
regexp_replace1函数用于将source字符串中第occurrence次匹配pattern的子串,替换成指定字符串replace_string后,返回结果字符串。 regexp_replace1函数只适用于Spark 2.4.5及之前的版本。 相似函数:regexp_repl
rpad rpad函数用于将字符串str2将字符串str1向右补足到length位。 命令格式 rpad(string <str1>, int <length>, string <str2>) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 str1 是 STRING 待向右补位的字符串。