检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
注意事项 所要查询的表必须是已经存在的表,否则会出错。 FROM嵌套子查询中,子查询必须要取别名,且别名的命名要早于别名的使用,否则会出错。建议别名不要重名。 FROM后所跟的子查询结果必须带上前面所取的别名,否则会出错。 示例 返回选了course_info表中课程的学生姓名,并利用DISTINCT关键字进行去重。
shiftleft(BIGINT a, BIGINT b) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 a 是 DOUBLE、BIGINT、DECIMAL、STRING类型。 参数a的格式包括浮点数格式、整数格式、字符串格式。 当参数a非BIGINT类型时,会隐式转换为BIGINT类型后参与运算。
a, BIGINT b) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 a 是 DOUBLE、BIGINT、DECIMAL、STRING类型。 参数a的格式包括浮点数格式、整数格式、字符串格式。 当参数a非BIGINT类型时,会隐式转换为BIGINT类型后参与运算。
median(colname) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 colname 是 DOUBLE、DECIMAL、STRING、BIGINT类型。 代表需要排序的列名。 列中元素为DOUBLE类型。 当列中元素非DOUBLE类型时,会隐式转换为DOUBLE类型后参与运算。
median(colname) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 colname 是 DOUBLE、DECIMAL、STRING、BIGINT类型。 代表需要排序的列名。 列中元素为DOUBLE类型。 当列中元素非DOUBLE类型时,会隐式转换为DOUBLE类型后参与运算。
JOIN,在使用UDTF时需要带上 LATERAL 和TABLE 两个关键字。 CROSS JOIN:对于左表的每一行数据,假设UDTF不产生输出,则这一行不进行输出。 LEFT JOIN:对于左表的每一行数据,假设UDTF不产生输出,这一行仍会输出,UDTF相关字段用null填充。 1 2 3
场景进行相应的编辑和定制。获取DLI样例代码。 操作流程 使用DLI提交Spark Jar作业的操作流程如表1所示。 开始进行如下操作前,请务必参考准备工作完成必要操作。 表1 使用DLI提交Spark Jar作业的操作流程 操作步骤 说明 步骤1:上传数据至OBS 准备Spark
SETS 的每个子列表可以是:空的,多列或表达式,它们的解释方式和直接使用 GROUP BY 子句是一样的。一个空的 Grouping Sets 表示所有行都聚合在一个分组下,即使没有数据,也会输出结果。 对于 Grouping Sets 中的空子列表,结果数据中的分组或表达式列会用NULL代替。
长期混用不同版本的Spark/Flink引擎会导致代码在新旧版本之间不兼容,影响作业的执行效率。 当作业依赖于特定版本的库或组件,长期混用不同版本的Spark/Flink引擎可能会导致作业因依赖冲突而执行失败。 计算引擎版本生命周期 表1给出了DLI计算引擎版本生命周期,帮助您规划自己的版本更新节奏。 表1 DLI计算引擎版本生命周期
INT d) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 a 是 DOUBLE、BIGINT、DECIMAL、STRING类型。 代表需要被四舍五入的值。 参数a的格式包括浮点数格式、整数格式、字符串格式。 d 否 INT类型。 默认值:0。 代表需要四舍五入到的位数。
<start_pos>]) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 str 是 STRING 待搜索的目标字符串。 如果输入为BIGINT、DOUBLE、DECIMAL或DATETIME类型,则会隐式转换为STRING类型后参与运算,其他类型会返回报错。 substr 是
<pattern>[, bigint <groupid>]) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 source 是 STRING 待拆分的字符串。 pattern 是 STRING STRING类型常量或正则表达式。待匹配的模型。 groupid 否 BIGINT BIGINT类型常量,必须大于等于0。
<pattern>[, bigint <groupid>]) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 source 是 STRING 待拆分的字符串。 pattern 是 STRING STRING类型常量或正则表达式。待匹配的模型。 groupid 否 BIGINT BIGINT类型常量,必须大于等于0。
action = "" ) 关键字 表1 关键字说明 参数 是否必选 说明 type 是 输出通道类型,"mrs_hbase"表示输出到MRS的HBase中。 region 是 MRS服务所在区域。 cluster_address 是 待插入数据表所属集群zookeeper地址,形如:ip1
format 是 STRING 代表需要转换的目标日期格式。 STRING类型常量,不支持日期扩展格式。 format:格式为代表年月日时分秒的时间单位与任意字符的组合,其中: yyyy代表年份。 mm代表月份。 dd代表天。 hh代表小时。 mi代表分钟。 ss代表秒。 返回值说明 返回BOOLEAN类型的值。
输出触发周期和窗口周期。 SESSION(time_attr, interval) 会话窗口,interval表示多长时间没有记录则关闭窗口。 窗口函数 表2 窗口函数表 函数名 说明 TUMBLE_START(time_attr, interval) 返回跳跃窗口开始时间。为UTC时区。
读取和写入Avro 数据。目前,Avro schema 从表schema 推导。 更多具体使用可参考开源社区文档:Avro Format。 支持的Connector Kafka Upsert Kafka FileSystem 参数说明 表1 参数说明 参数 是否必选 默认值 类型 说明 format
逻辑函数 表1 逻辑函数 SQL函数 返回类型 描述 boolean1 OR boolean2 BOOLEAN 如果 boolean1 为 TRUE 或 boolean2 为 TRUE 返回 TRUE。支持三值逻辑。 例如 true || Null(BOOLEAN) 返回 TRUE。
cos(DOUBLE a) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 a 是 DOUBLE、BIGINT、DECIMAL、STRING类型。 参数a的格式包括浮点数格式、整数格式、字符串格式。 参数a非DOUBLE类型时,会隐式转换为DOUBLE类型后参与运算。 返回值说明
sin(DOUBLE a) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 a 是 DOUBLE、BIGINT、DECIMAL、STRING类型。 参数a的格式包括浮点数格式、整数格式、字符串格式。 参数a非DOUBLE类型时,会隐式转换为DOUBLE类型后参与运算。 返回值说明