检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据类型为数值的列。其他类型返回NULL。 col2 是 数据类型为数值的列。其他类型返回NULL。 返回值说明 返回DOUBLE类型的值。 示例代码 计算所有商品库存(items)和价格(price)的样本协方差。命令示例如下: select covar_samp(items,price) from
n环境。 可以通过在conf文件中,设置spark.yarn.appMasterEnv.PYSPARK_PYTHON=python3,指定计算集群环境为Python3环境。 目前,新建集群环境均已默认为Python3环境。 父主题: Spark作业开发类
数据类型为数值的列。其他类型返回NULL。 p 是 0<=P<=1,否则返回NULL。 返回值说明 返回DOUBLE类型的值。 0<=P<=1,否则返回NULL。 示例代码 计算所有商品库存(items)的 0.5 百分位。命令示例如下: select percentile(items,0.5) from warehouse;
参数说明 参数 是否必选 说明 col 是 数据类型为数值的列。其他类型返回NULL。 返回值说明 返回DOUBLE类型的值。 示例代码 计算所有商品库存(items)的偏差。命令示例如下: select stddev_pop(items) from warehouse; 返回结果如下:
参数说明 参数 是否必选 说明 col 是 数据类型为数值的列。 其他类型返回NULL。 返回值说明 返回DOUBLE类型的值。 示例代码 计算所有商品库存(items)的样本方差。命令示例如下: select var_samp(items) from warehouse; 返回结果如下:
Bitwise函数 bit_count(x, bits) → bigint 计算2的补码表示法中x中设置的位数(视为有符号位的整数)。 SELECT bit_count(9, 64); -- 2 SELECT bit_count(9, 8); -- 2 SELECT bit_count(-7
NYINT、FLOAT、DECIMAL类型 数据类型为数值的列。其他类型返回NULL。 返回值说明 返回DOUBLE类型的值。 示例代码 计算所有商品库存(items)和价格(price)的相关系数。命令示例如下: select corr(items,price) from warehouse;
regexp_substr regexp_substr函数用于计算从start_position位置开始,source中第occurrence次匹配指定pattern的子串。 命令格式 regexp_substr(string <source>, string <pattern>[
datepart datepart函数用于计算日期date中符合指定时间单位datepart的值。 命令格式 datepart(string date,string datepart) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 date 是 DATE 或 STRING
lengthb lengthb函数用于计算字符串str以字节为单位的长度。 相似函数:length,length函数用于返回字符串的长度,返回BIGINT类型的值。 命令格式 lengthb(string <str>) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 str
OPTIMIZE命令用于优化数据在存储中的布局,提高查询速度。 注意事项 由于Optimize是一项耗时的活动,因此需要根据更好的最终用户查询性能与优化计算时间之间的权衡来确定运行Optimized的频率。 分区表优化需要设置参数spark.sql.forcePartitionPredicat
regexp_instr regexp_instr函数用于计算字符串source从start_position开始,与pattern第occurrence次匹配的子串的起始或结束位置。 命令格式 regexp_instr(string <source>, string <pattern>[
from_unixtime from_unixtime函数用于计算将数字型的UNIX值代表的时间戳转换为日期值。 命令格式 from_unixtime(bigint unixtime) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 unixtime 是 BIGINT
from_utc_timestamp from_utc_timestamp函数用于计算将UTC的时间戳转化为timezone所对应的UNIX格式的时间戳。 命令格式 from_utc_timestamp(string timestamp, string timezone) 参数说明
add_months add_months函数用于计算日期值增加指定月数后的日期。即start_date在num_months个月之后的date。 命令格式 add_months(string start_date, int num_months) 参数说明 表1 参数说明 参数
date_add date_add函数用于计算按照days幅度递增startdate日期的天数。 如需要获取当前日期基础上指定变动幅度的日期,可结合current_date或getdate函数共同使用。 请注意date_add函数与date_sub函数逻辑反。 命令格式 date_add(string
datetrunc datetrunc函数用于计算将日期date按照datepart指定的时间单位进行截取后的日期值。 截取datepart之前的部分,除截取的部分外自动填充为默认值。可参考示例代码。 命令格式 datetrunc (string date, string datepart)
获取指定集群信息(废弃) 功能介绍 该API用于查询指定集群的信息,包括名称、描述以及绑定的计算资源数。 当前接口已废弃,不推荐使用。 URI URI格式: GET /v2.0/{project_id}/clusters/{cluster_name} 参数说明 表1 URI参数 名称
参数B控制近似的精确度,B值越大,近似度越高,默认值为10000。当列中非重复值的数量小于B时,返回精确的百分数。 返回值说明 返回DOUBLE类型的值。 示例代码 计算所有商品库存(items)的 0.5 百分位,精确度100。命令示例如下: select PERCENTILE_APPROX(items,0
Hbase结果表 功能描述 DLI将作业的输出数据输出到HBase中。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发现数