华为云用户手册

数据湖探索 DLI-时间函数:DAYOFWEEK

DAYOFWEEK 功能描述计算当前日期是当前周的第几天（1 到 7之间的整数），以BIGINT类型返回。需要注意这里自然周的起点是星期天，即每周的第1天是星期天，第2天是星期一，依次类推。语法说明 BIGINT DAYOFWEEK(date) 入参说明参数名数据类型参数说明 date DATE SQL日期。示例测试语句 SELECT DAYOFWEEK(DATE '1997-04-25') AS `result` FROM testtable; 测试结果 result 6

数据湖探索 DLI
数据湖探索 DLI-时间函数:TIMESTAMP

TIMESTAMP 功能描述将时间字符串转换为时间戳，时间字符串格式为："yyyy-MM-dd HH:mm:ss[.fff]"，以TIMESTAMP(3)类型返回。语法说明 TIMESTAMP(3) TIMESTAMP string 入参说明参数名数据类型参数说明 string STRING 时间戳字符串。注意该字符串格式必须为"yyyy-MM-dd HH:mm:ss[.fff]"，否则语义校验会报错。示例测试语句 SELECT TIMESTAMP "1997-04-25 13:14:15" AS `result`, TIMESTAMP "1997-04-25 13:14:15.032" AS `result2` FROM testtable; 测试结果 result result2 1997-04-25 13:14:15 1997-04-25 13:14:15.032

数据湖探索 DLI
数据湖探索 DLI-时间函数:TIME

TIME 功能描述将时间字符串以"HH:mm:ss[.fff]"形式解析为SQL时间，结果以TIME类型返回。语法说明 TIME TIME string 入参说明参数名数据类型参数说明 string STRING 时间字符串。注意该字符串格式必须"HH:mm:ss[.fff]"，否则语义校验会报错。示例测试语句 SELECT TIME "10:11:12" AS `result`, TIME "10:11:12.032" AS `result2` FROM testtable; 测试结果 result result2 10:11:12 10:11:12.032

数据湖探索 DLI
数据湖探索 DLI-时间函数:CURRENT_TIMESTAMP

CURRENT_TIMESTAMP 功能描述以UTC（UTC+0）时区返回当前SQL时间戳，返回类型为TIMESTAMP(3)。语法说明 TIMESTAMP(3) CURRENT_TIMESTAMP 入参说明无。示例测试语句 SELECT CURRENT_TIMESTAMP AS `result` FROM testtable; 测试结果 result 2021-10-28 08:33:51.606

数据湖探索 DLI
数据湖探索 DLI-时间函数:INTERVAL

INTERVAL 功能描述 INTERVAL函数用于表示时间间隔。语法说明 INTERVAL INTERVAL string range 入参说明参数名数据类型参数说明 string STRING 时间戳字符串，搭配参数range使用。两种格式类型，分别为：一种为"yyyy-MM"即保存年份和月份，精度到月份，它的range参数可以为YEAR或者YEAR To Month。一种为天时间"dd HH:mm:sss.fff"，用来保存天数、小时、分钟、秒和毫秒，精度最低到毫秒。它的range参数可以为DAY、MINUTE、DAY TO HOUR、DAY TO SECOND。 range INTERVAL 时间间隔说明，搭配string参数使用，详细请参考string参数说明。取值范围为：YEAR、YEAR To Month、DAY、MINUTE、DAY TO HOUR、DAY TO SECOND。示例测试语句 --表示间隔10天4毫秒。 INTERVAL '10 00:00:00.004' DAY TO second --DAY表示间隔10天 INTERVAL '10' --表示间隔2年10个月 INTERVAL '2-10' YEAR TO MONTH

数据湖探索 DLI
数据湖探索 DLI-时间函数:DATE

DATE 功能描述 DATE函数将"yyyy-MM-dd"日期格式的字符串解析为DATE类型的日期。语法说明 DATE DATE string 入参说明参数名数据类型参数说明 string STRING SQL日期格式的字符串。注意该字符串的格式必须为"yyyy-MM-dd"格式，否则语义校验会报错。示例测试语句 SELECT DATE "2021-08-19" AS `result` FROM testtable; 测试结果 result 2021-08-19

数据湖探索 DLI
数据湖探索 DLI-时间函数:EXTRACT

EXTRACT 功能描述提取时间点或时间间隔中指定某一时间单位的部分，以BIGINT类型返回。语法说明 BIGINT EXTRACT(timeinteravlunit FROM temporal) 入参说明参数名数据类型参数说明 timeinteravlunit TIMEUNIT 需要从时间点或时间间隔中提取的时间单位，取值可以是：YEAR/QUARTER/MONTH/WEEK/DAY/DOY/HOUR/MINUTE/SECOND。 temporal DATE/TIME/TIMESTAMP/INTERVAL 时间点或时间间隔。不允许指定不存在于时间点或时间间隔中的时间单位，否则作业会提交失败。例如如下错误语句，会报错YEAR不能从TIME中提取。 SELECT EXTRACT(YEAR FROM TIME '12:44:31' ) AS `result` FROM testtable; 示例测试语句 SELECT EXTRACT(YEAR FROM DATE '1997-04-25' ) AS `result`, EXTRACT(MINUTE FROM TIME '12:44:31') AS `result2`, EXTRACT(SECOND FROM TIMESTAMP '1997-04-25 13:14:15') AS `result3`, EXTRACT(YEAR FROM INTERVAL '2-10' YEAR TO MONTH) AS `result4`, FROM testtable; 测试结果 result result2 result3 result4 1997 44 15 2

数据湖探索 DLI
数据湖探索 DLI-时间函数:函数说明

函数说明表1 时间函数函数返回值描述 DATE string DATE 将日期字符串以"yyyy-MM-dd"的形式解析为SQL日期。 TIME string TIME 将时间字符串以"HH:mm:ss[.fff]"形式解析为SQL时间。 TIMESTAMP string TIMESTAMP 将时间字符串转换为时间戳，时间字符串格式为："yyyy-MM-dd HH:mm:ss[.fff]"。 INTERVAL string range INTERVAL interval表示时间间隔。有两种类型，分别为：一种为"yyyy-MM"即保存年份和月份，精度到月份，它的range参数可以为YEAR或者YEAR To Month。一种为天时间"dd HH:mm:sss.fff"，用来保存天数、小时、分钟、秒和毫秒，精度最低到毫秒。它的range参数可以为DAY、MINUTE、DAY TO HOUR、DAY TO SECOND。例如： INTERVAL '10 00:00:00.004' DAY TO second表示间隔10天4毫秒。 INTERVAL '10' DAY表示间隔10天 INTERVAL '2-10' YEAR TO MONTH表示间隔2年10个月。 CURRENT_DATE DATE 以UTC时区返回当前SQL日期。 CURRENT_TIME TIME 以UTC时区返回当前SQL时间。 CURRENT_TIMESTAMP TIMESTAMP 以UTC时区返回当前SQL时间戳。 LOCALTIME TIME 返回当前时区的当前SQL时间。 LOCALTIMESTAMP TIMESTAMP 返回当前时区的当前SQL时间戳。 EXTRACT(timeintervalunit FROM temporal) BIGINT 提取时间点的一部分或者时间间隔。以int类型返回该部分。例如：提取日期“2006-06-05”中的日为5 EXTRACT(DAY FROM DATE '2006-06-05') 返回5。 YEAR(date) BIGINT 返回输入时间的年份例如：YEAR(DATE '1994-09-27') 返回1994 QUARTER(date) BIGINT 从SQL日期返回表示该日期季度的数字。 MONTH(date) BIGINT 返回输入时间的月份例如：MONTH(DATE '1994-09-27')返回9 WEEK(date) BIGINT 计算当前日期是一年中的第几周例如：WEEK(DATE '1994-09-27') 返回39 DAYOFYEAR(date) BIGINT 计算当前日期是一年中的第几天例如：DAYOFYEAR(DATE '1994-09-27') 返回270 DAYOFMONTH(date) BIGINT 计算当前日期是这个月的第几天例如：DAYOFMONTH(DATE '1994-09-27') 返回27 DAYOFWEEK(date) BIGINT 计算当前日期是当前周的第几天其中周日设为1 例如：DAYOFWEEK(DATE '1994-09-27') 返回3 HOUR(timestamp) BIGINT 返回当前时间戳的24小时制的小时数，范围0-23 例如：HOUR(TIMESTAMP '1994-09-27 13:14:15') 返回13 MINUTE(timestamp) BIGINT 返回当前时间戳中的分钟数，范围0-59 例如：MINUTE(TIMESTAMP '1994-09-27 13:14:15') 返回14 SECOND(timestamp) BIGINT 返回当前时间戳中的秒数，范围0-59 例如：SECOND(TIMESTAMP '1994-09-27 13:14:15') 返回15 FLOOR(timepoint TO timeintervalunit) TIME 向下对齐时间。例如：FLOOR(TIME '12:44:31' TO MINUTE)按分钟对齐到12:44:00。 CEIL(timepoint TO timeintervalunit) TIME 向上对齐时间。例如：CEIL(TIME '12:44:31' TO MINUTE)按分钟对齐到12:45:00。 (timepoint1, temporal1) OVERLAPS (timepoint2, temporal2) BOOLEAN 若两个时间范围有重叠，则返回TRUE 例如： (TIME '2:55:00', INTERVAL '1' HOUR) OVERLAPS (TIME '3:30:00', INTERVAL '2' HOUR) 返回TRUE (TIME '9:00:00', TIME '10:00:00') OVERLAPS (TIME '10:15:00', INTERVAL '3' HOUR) 返回 FALSE DATE_FORMAT(timestamp, string) STRING 将日期从源格式转换至目标格式 TIMESTAMPADD(timeintervalunit, interval, timepoint) TIMESTAMP/DATE/TIME 将整型interval与timeintervalunit组成的结果添加日期或日期时间到timepoint中，并返回添加后的日期时间例如：TIMESTAMPADD(WEEK, 1, DATE '2003-01-02') 返回2003-01-09 TIMESTAMPDIFF(timepointunit, timepoint1, timepoint2) INT 返回timepoint1和timepoint2相差的时间单元数量 timepointunit表示时间单元，应该是SECOND、MINUTE、HOUR、DAY、MONTH或YEAR 例如： TIMESTAMPDIFF(DAY, TIMESTAMP '2003-01-02 10:00:00', TIMESTAMP '2003-01-03 10:00:00') 返回1 CONVERT_TZ(string1, string2, string3) TIMESTAMP 将string2时区的时间string1转换为其在string3时区的对应时间例如：CONVERT_TZ('1970-01-01 00:00:00', 'UTC', 'Country A/City A') 返回'1969-12-31 16:00:00' FROM_UNIXTIME(numeric[, string]) STRING 根据时间戳numeric和当前时区返回string格式的时间，单位为秒 string默认格式为'YYYY-MM-DD hh:mm:ss' 例如：FROM_UNIXTIME(44)返回1970-01-01 09:00:44 UNIX_TIMESTAMP() BIGINT 返回当前时间的时间戳，单位为秒 UNIX_TIMESTAMP(string1[, string2]) BIGINT 将string2格式的时间字符串string1转为时间戳，单位为秒 string2默认格式为'yyyy-MM-dd HH:mm:ss' TO_DATE(string1[, string2]) DATE 将string2格式的日期字符串，转换为DATE类型 string2默认格式为 'yyyy-MM-dd' TO_TIMESTAMP(string1[, string2]) TIMESTAMP 将string2格式的日期时间字符串转换为TIMESTAMP类型 string2默认格式为'yyyy-MM-dd HH:mm:ss'

数据湖探索 DLI
数据湖探索 DLI-数学运算函数:算术运算符

算术运算符算术运算符包括双目运算符与单目运算符，这些运算符都将返回数字类型。Flink SQL所支持的算术运算符如表3所示。表3 算术运算符运算符返回类型描述 + numeric 所有数字类型返回数字。 - numeric 所有数字类型返回负数。 A + B 所有数字类型 A和B相加。结果数据类型与操作数据类型相关，例如一个整数类型数据加上一个浮点类型数据，结果数值为浮点类型数据。 A - B 所有数字类型 A和B相减。结果数据类型与操作数据类型相关。 A * B 所有数字类型 A和B相乘。结果数据类型与操作数据类型相关。 A / B 所有数字类型 A和B相除。结果是一个double（双精度）类型的数值。 POWER(A, B) 所有数字类型返回A数的B次方乘幂。 ABS(numeric) 所有数字类型返回数值的绝对值。 MOD(A, B) 所有数字类型返回A除以B的余数（模数）。返回值只有在A为负数时才为负数。 SQRT(A) 所有数字类型返回A的平方根。 LN(A) 所有数字类型返回A的自然对数（基数e）。 LOG 10(A) 所有数字类型返回A的基数10对数。 LOG2(A) 所有数字类型返回A的基数2对数。 LOG(B) LOG(A, B) 所有数字类型当只有一个参数，返回B的自然对数（基数e）。当有两个参数，返回B以A为基数的对数。 B必须大于0，且A必须大于1。 EXP(A) 所有数字类型返回e的a次方。 CEIL(A) CEILING(A) 所有数字类型将参数向上舍入为最接近的整数。例如ceil(21.2)，返回22。 FLOOR(A) 所有数字类型对给定数据进行向下舍入最接近的整数。例如floor(21.2)，返回21。 SIN(A) 所有数字类型计算给定A的正弦值。 COS(A) 所有数字类型计算给定A的余弦值。 TAN(A) 所有数字类型计算给定A的正切值。 COT(A) 所有数字类型计算给定A的余切值。 ASIN(A) 所有数字类型计算给定A的反正弦值。 ACOS(A) 所有数字类型计算给定A的反余弦值。 ATAN(A) 所有数字类型计算给定A的反正切值。 ATAN2(A, B) 所有数字类型计算给定坐标(A, B)的反正切值。 COSH(A) 所有数字类型计算给定A的双曲余弦值。返回类型为DOUBLE。 DEGREES(A) 所有数字类型返回弧度所对应的角度。 RADIANS(A) 所有数字类型返回角度所对应的弧度。 SIGN(A) 所有数字类型返回a所对应的正负号，a为正返回1，a为负，返回-1，否则返回0。 ROUND(A, d) 所有数字类型返回小数部分，d位之后数字的四舍五入，d为int型。例如round(21.263,2)，返回21.26。 PI 所有数字类型返回pi的值。 E() 所有数字类型返回e的值。 RAND() 所有数字类型返回一个0.0和1.0之间的随机double类型的数（包含0.0，不包含1.0）。 RAND(A) 所有数字类型根据初始化种子A，返回一个0.0和1.0之间的随机double类型的数（包含0.0，不包含1.0）。若初始化种子相同，则返回的随机数相同。 RAND_INTEGER(A) 所有数字类型返回一个0和A之间的随机整数（包含0，不包含A）。 RAND_INTEGER(A, B) 所有数字类型根据初始化种子A，返回一个0和B之间的随机整数值（包含0，不包含B） UUID() 所有数字类型返回一个UUID字符串。 BIN(A) 所有数字类型返回一个整数A的二进制字符串。如为null则返回null。 HEX(A) HEX(B) 所有数字类型返回一个整数A或者字符串B的十六进制字符串。若A或B为null，则返回null。 TRUNCATE(A, d) 所有数字类型返回保留小数点后d为小数的数字。若A或d为null，则返回null。例如：truncate(42.345, 2) = 42.340 truncate(42.345) = 42.000 PI() 所有数字类型返回pi的值注意事项字符串类型不能参与算术运算。

数据湖探索 DLI
数据湖探索 DLI-去重:示例

示例根据order_id对数据进行去重，其中proctime为事件时间属性列 SELECT order_id, user, product, number FROM ( SELECT *, ROW_NUMBER() OVER (PARTITION BY order_id ORDER BY proctime ASC) as row_num FROM Orders) WHERE row_num = 1;

数据湖探索 DLI
数据湖探索 DLI-去重:语法说明

语法说明 ROW_NUMBER(): 从第一行开始，依次为每一行分配一个唯一且连续的号码。 PARTITION BY col1[, col2...]: 指定分区的列，例如去重的键。 ORDER BY time_attr [asc|desc]: 指定排序的列。所指定的列必须为时间属性。目前仅支持proctime。升序（ ASC ）排列指只保留第一行，而降序排列（ DESC ）则只保留最后一行。 WHERE rownum = 1: Flink 需要 rownum = 1 以确定该查询是否为去重查询。

数据湖探索 DLI
数据湖探索 DLI-JOIN:Join Temporal Table Function

Join Temporal Table Function 功能描述注意事项目前仅支持在 Temporal Tables 上的 inner join 示例假如Rates是一个 Temporal Table Function， join 可以使用 SQL 进行如下的表达: SELECT o_amount, r_rate FROM Orders, LATERAL TABLE (Rates(o_proctime)) WHERE r_currency = o_currency;

数据湖探索 DLI
数据湖探索 DLI-JOIN:Join表函数(UDTF)

Join表函数(UDTF) 功能描述将表与表函数的结果进行 join 操作。左表（outer）中的每一行将会与调用表函数所产生的所有结果中相关联行进行 join 。注意事项针对横向表的左外部连接当前仅支持文本常量 TRUE 作为谓词。示例若表函数返回了空结果，左表（outer）的行将会被删除 SELECT users, tag FROM Orders, LATERAL TABLE(unnest_udtf(tags)) t AS tag; 若表函数返回了空结果，将会保留相对应的外部行并用空值填充 SELECT users, tag FROM Orders LEFT JOIN LATERAL TABLE(unnest_udtf(tags)) t AS tag ON TRUE;

数据湖探索 DLI
数据湖探索 DLI-窗口:OVER WINDOW

OVER WINDOW Over Window与Group Window区别在于Over window每一行都会输出一条记录。语法格式 1 2 3 4 5 6 7 8 9 10 11 SELECT agg1(attr1) OVER ( [PARTITION BY partition_name] ORDER BY proctime|rowtime ROWS BETWEEN (UNBOUNDED|rowCOUNT) PRECEDING AND CURRENT ROW FROM TABLENAME SELECT agg1(attr1) OVER ( [PARTITION BY partition_name] ORDER BY proctime|rowtime RANGE BETWEEN (UNBOUNDED|timeInterval) PRECEDING AND CURRENT ROW FROM TABLENAME 语法说明表5 参数说明参数参数说明 PARTITION BY 指定分组的主键，每个分组各自进行计算。 ORDER BY 指定数据按processing time或event time作为时间戳。 ROWS 个数窗口。 RANGE 时间窗口。注意事项所有的聚合必须定义到同一个窗口中，即相同的分区、排序和区间。当前仅支持 PRECEDING (无界或有界) 到 CURRENT ROW 范围内的窗口、FOLLOWING 所描述的区间并未支持。 ORDER BY 必须指定于单个的时间属性。示例 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 // 计算从规则启动到目前为止的计数及总和(in proctime) insert into temp SELECT name, count(amount) OVER (PARTITION BY name ORDER BY proctime RANGE UNBOUNDED preceding) as cnt1, sum(amount) OVER (PARTITION BY name ORDER BY proctime RANGE UNBOUNDED preceding) as cnt2 FROM Orders; // 计算最近四条记录的计数及总和(in proctime) insert into temp SELECT name, count(amount) OVER (PARTITION BY name ORDER BY proctime ROWS BETWEEN 4 PRECEDING AND CURRENT ROW) as cnt1, sum(amount) OVER (PARTITION BY name ORDER BY proctime ROWS BETWEEN 4 PRECEDING AND CURRENT ROW) as cnt2 FROM Orders; // 计算最近60s的计数及总和(in eventtime),基于事件时间处理，事件时间为Orders中的timeattr字段。 insert into temp SELECT name, count(amount) OVER (PARTITION BY name ORDER BY timeattr RANGE BETWEEN INTERVAL '60' SECOND PRECEDING AND CURRENT ROW) as cnt1, sum(amount) OVER (PARTITION BY name ORDER BY timeattr RANGE BETWEEN INTERVAL '60' SECOND PRECEDING AND CURRENT ROW) as cnt2 FROM Orders;

数据湖探索 DLI
数据湖探索 DLI-窗口:GROUP WINDOW

GROUP WINDOW 语法说明 Group Window定义在GROUP BY里，每个分组只输出一条记录，包括以下几种：分组函数表1 分组函数表分组窗口函数说明 TUMBLE(time_attr, interval) 定义一个滚动窗口。滚动窗口把行分配到有固定持续时间（ interval ）的不重叠的连续窗口。比如，5 分钟的滚动窗口以 5 分钟为间隔对行进行分组。滚动窗口可以定义在事件时间（批处理、流处理）或处理时间（流处理）上。 HOP(time_attr, interval, interval) 定义一个跳跃的时间窗口（在 Table API 中称为滑动窗口）。滑动窗口有一个固定的持续时间（第二个 interval 参数）以及一个滑动的间隔（第一个 interval 参数）。若滑动间隔小于窗口的持续时间，滑动窗口则会出现重叠；因此，行将会被分配到多个窗口中。比如，一个大小为 15 分钟的滑动窗口，其滑动间隔为 5 分钟，将会把每一行数据分配到 3 个 15 分钟的窗口中。滑动窗口可以定义在事件时间（批处理、流处理）或处理时间（流处理）上。 SESSION(time_attr, interval) 定义一个会话时间窗口。会话时间窗口没有一个固定的持续时间，但是它们的边界会根据 interval 所定义的不活跃时间所确定；即一个会话时间窗口在定义的间隔时间内没有事件出现，该窗口会被关闭。例如时间窗口的间隔时间是 30 分钟，当其不活跃的时间达到30分钟后，若观测到新的记录，则会启动一个新的会话时间窗口（否则该行数据会被添加到当前的窗口），且若在 30 分钟内没有观测到新纪录，这个窗口将会被关闭。会话时间窗口可以使用事件时间（批处理、流处理）或处理时间（流处理）。在流处理表中的 SQL 查询中，分组窗口函数的 time_attr 参数必须引用一个合法的时间属性，且该属性需要指定行的处理时间或事件时间。 time_attr设置为event-time时参数类型为timestamp(3)类型。 time_attr设置为processing-time时无需指定类型。对于批处理的 SQL 查询，分组窗口函数的 time_attr 参数必须是一个timestamp类型的属性。窗口辅助函数可以使用以下辅助函数选择组窗口的开始和结束时间戳以及时间属性表2 窗口辅助函数表辅助函数说明 TUMBLE_START(time_attr, interval) HOP_START(time_attr, interval, interval) SESSION_START(time_attr, interval) 返回相对应的滚动、滑动和会话窗口范围内的下界时间戳。 TUMBLE_END(time_attr, interval) HOP_END(time_attr, interval, interval) SESSION_END(time_attr, interval) 返回相对应的滚动、滑动和会话窗口范围以外的上界时间戳。注意：范围以外的上界时间戳不可以在随后基于时间的操作中，作为行时间属性使用，比如基于时间窗口的join以及分组窗口或分组窗口上的聚合。 TUMBLE_ROWTIME(time_attr, interval) HOP_ROWTIME(time_attr, interval, interval) SESSION_ROWTIME(time_attr, interval) 返回的是一个可用于后续需要基于时间的操作的时间属性（rowtime attribute），比如基于时间窗口的join以及分组窗口或分组窗口上的聚合。 TUMBLE_PROCTIME(time_attr, interval) HOP_PROCTIME(time_attr, interval, interval) SESSION_PROCTIME(time_attr, interval) 返回一个可用于后续需要基于时间的操作的处理时间参数，比如基于时间窗口的join以及分组窗口或分组窗口上的聚合. 注意：辅助函数必须使用与GROUP BY 子句中的分组窗口函数完全相同的参数来调用. 示例 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 // 每天计算SUM（金额）（事件时间）。 insert into temp SELECT name, TUMBLE_START(ts, INTERVAL '1' DAY) as wStart, SUM(amount) FROM Orders GROUP BY TUMBLE(ts, INTERVAL '1' DAY), name; // 每天计算SUM（金额）（处理时间）。 insert into temp SELECT name, SUM(amount) FROM Orders GROUP BY TUMBLE(proctime, INTERVAL '1' DAY), name; // 每个小时计算事件时间中最近24小时的SUM（数量）。 insert into temp SELECT product, SUM(amount) FROM Orders GROUP BY HOP(ts, INTERVAL '1' HOUR, INTERVAL '1' DAY), product; // 计算每个会话的SUM（数量），间隔12小时的不活动间隙（事件时间）。 insert into temp SELECT name, SESSION_START(ts, INTERVAL '12' HOUR) AS sStart, SESSION_END(ts, INTERVAL '12' HOUR) AS sEnd, SUM(amount) FROM Orders GROUP BY SESSION(ts, INTERVAL '12' HOUR), name;

数据湖探索 DLI
数据湖探索 DLI-集合操作:IN

IN 语法格式 1 2 3 SELECT [ ALL | DISTINCT ] { * | projectItem [, projectItem ]* } FROM tableExpression WHERE column_name IN (value (, value)* ) | query 语法说明 IN操作符允许在where子句中规定多个值。若表达式在给定的表子查询中存在，则返回 true 。注意事项子查询表必须由单个列构成，且该列的数据类型需与表达式保持一致。示例输出Orders中NewProducts中product的user和amount信息。 1 2 3 4 5 insert into temp SELECT user, amount FROM Orders WHERE product IN ( SELECT product FROM NewProducts );

数据湖探索 DLI
数据湖探索 DLI-集合操作:Union/Union ALL/Intersect/Except

Union/Union ALL/Intersect/Except 语法格式 1 query UNION [ ALL ] | Intersect | Except query 语法说明 UNION返回多个查询结果的并集。 Intersect返回多个查询结果的交集。 Except返回多个查询结果的差集。注意事项集合运算是以一定条件将表首尾相接，所以其中每一个SELECT语句返回的列数必须相同，列的类型一定要相同，列名不一定要相同。 UNION默认是去重的，UNION ALL是不去重的。示例输出Orders1和Orders2的并集，不包含重复记录。 1 2 insert into temp SELECT * FROM Orders1 UNION SELECT * FROM Orders2;

数据湖探索 DLI
数据湖探索 DLI-SELECT:按列GROUP BY

按列GROUP BY 功能描述按列进行分组操作。语法格式 1 2 3 4 SELECT [ ALL | DISTINCT ] { * | projectItem [, projectItem ]* } FROM tableExpression [ WHERE booleanExpression ] [ GROUP BY { groupItem [, groupItem ]* } ] 语法说明 GROUP BY：按列可分为单列GROUP BY与多列GROUP BY。单列GROUP BY：指GROUP BY子句中仅包含一列。多列GROUP BY：指GROUP BY子句中不止一列，查询语句将按照GROUP BY的所有字段分组，所有字段都相同的记录将被放在同一组中。注意事项 GroupBy在流处理表中会产生更新结果示例根据score及name两个字段对表student进行分组，并返回分组结果。 1 2 insert into temp SELECT name,score, max(score) FROM student GROUP BY name,score;

数据湖探索 DLI
数据湖探索 DLI-SELECT:表达式GROUP BY

表达式GROUP BY 功能描述按表达式对流进行分组操作。语法格式 1 2 3 4 SELECT [ ALL | DISTINCT ] { * | projectItem [, projectItem ]* } FROM tableExpression [ WHERE booleanExpression ] [ GROUP BY { groupItem [, groupItem ]* } ] 语法说明 groupItem：可以是单字段，多字段，也可以是字符串函数等调用，不能是聚合函数。注意事项无示例先利用substring函数取字段name的子字符串，并按照该子字符串进行分组，返回每个子字符串及对应的记录数。 1 2 insert into temp SELECT substring(name,6),count(name) FROM student GROUP BY substring(name,6);

数据湖探索 DLI
数据湖探索 DLI-SELECT:Grouping sets, Rollup, Cube

Grouping sets, Rollup, Cube 功能描述 GROUPING SETS 的 GROUP BY 子句可以生成一个等效于由多个简单 GROUP BY 子句的 UNION ALL 生成的结果集，并且其效率比 GROUP BY 要高。 ROLLUP与CUBE按一定的规则产生多种分组，然后按各种分组统计数据。 CUBE生成的结果集显示了所选列中值的所有组合的聚合。 Rollup生成的结果集显示了所选列中值的某一层次结构的聚合。语法格式 SELECT [ ALL | DISTINCT ] { * | projectItem [, projectItem ]* } FROM tableExpression [ WHERE booleanExpression ] [ GROUP BY groupingItem] 语法说明 groupingItem：是Grouping sets(columnName [, columnName]*)、Rollup(columnName [, columnName]*)、Cube(columnName [, columnName]*) 注意事项无示例分别产生基于user和product的结果 INSERT INTO temp SELECT SUM(amount) FROM Orders GROUP BY GROUPING SETS ((user), (product));

数据湖探索 DLI
数据湖探索 DLI-Raw Format:功能描述

功能描述 Raw format 允许读写原始（基于字节）值作为单个列。注意: 这种格式将 null 值编码成 byte[] 类型的 null。这样在 upsert-kafka 中使用时可能会有限制，因为 upsert-kafka 将 null 值视为墓碑消息（在键上删除）。因此，如果该字段可能具有 null 值，我们建议避免使用 upsert-kafka 连接器和 raw format 作为 value.format。 Raw format 连接器是内置的。

数据湖探索 DLI
数据湖探索 DLI-Raw Format:参数说明

参数说明表1 参数是否必选默认值类型描述 format 是 (none) String 指定要使用的格式, 这里应该是 'raw'。 raw.charset 否 UTF-8 String 指定字符集来编码文本字符串。 raw.endianness 否 big-endian String 指定字节序来编码数字值的字节。有效值为'big-endian'和'little-endian'。更多细节可查阅字节序。

数据湖探索 DLI
数据湖探索 DLI-Maxwell Format:参数说明

参数说明参数是否必选默认值类型说明 format 是 (none) String 指定使用格式，此处使用'maxwell-json'。 maxwell-json.ignore-parse-errors 否 false Boolean 跳过解析错误而不是失败的字段和行。出现错误时，字段设置为空。 maxwell-json.timestamp-format.standard 否 'SQL' String 指定输入和输出时间戳格式。当前支持的值为“SQL”和“ISO-8601”：选项“SQL”将以“yyyy-MM-dd HH:mm:ss.s{precision}”格式解析输入时间戳，例如“2020-12-30 12” :13:14.123' 并以相同格式输出时间戳。选项'ISO-8601'将以“yyyy-MM-ddTHH:mm:ss.s{precision}”格式解析输入时间戳，例如'2020-12-30T12： 13:14.123' 并以相同格式输出时间戳。 maxwell-json.map-null-key.mode 否 'FAIL' String 在序列化地图数据的空键时指定处理模式。当前支持的值为“FAIL”、“DROP”和“LITERAL”：选项“FAIL”将在遇到带有空键的地图时抛出异常。选项“DROP”将删除地图数据的空键条目。选项“LITERAL”将替换空带字符串文字的键。字符串文字由 maxwell-json.map-null-key.literal 选项定义。 maxwell-json.map-null-key.literal 否 'null' String 当 'maxwell-json.map-null-key.mode' 为 LITERAL 时，指定字符串文字以替换空键。

数据湖探索 DLI
数据湖探索 DLI-JSON Format:参数说明

参数说明表1 参数是否必选默认值类型说明 format 是 (none) String 声明使用的格式，这里应为'json'。 json.fail-on-missing-field 否 false Boolean 当解析字段缺失时，是跳过当前字段或行，还是抛出错误失败（默认为 false，不抛出错误失败）。 json.ignore-parse-errors 否 false Boolean 当解析异常时，是跳过当前字段或行，还是抛出错误失败（默认为 false，即抛出错误失败）。如果忽略字段的解析异常，则会将该字段值设置为null。 json.timestamp-format.standard 否 'SQL' String 声明输入和输出的TIMESTAMP和TIMESTAMP WITH LOCAL TIME ZONE 的格式。当前支持的格式为'SQL'和'ISO-8601'：可选参数 'SQL' 将会以 "yyyy-MM-dd HH:mm:ss.s{precision}" 的格式解析 TIMESTAMP, 例如 "2020-12-30 12:13:14.123"，以 "yyyy-MM-dd HH:mm:ss.s{precision}'Z'" 的格式解析 TIMESTAMP WITH LOCAL TIME ZONE, 例如 "2020-12-30 12:13:14.123Z" 且会以相同的格式输出。可选参数 'ISO-8601' 将会以 "yyyy-MM-ddTHH:mm:ss.s{precision}" 的格式解析输入 TIMESTAMP, 例如 "2020-12-30T12:13:14.123" ，以 "yyyy-MM-ddTHH:mm:ss.s{precision}'Z'" 的格式解析 TIMESTAMP WITH LOCAL TIME ZONE, 例如 "2020-12-30T12:13:14.123Z" 且会以相同的格式输出。 json.map-null-key.mode 否 'FALL' String 指定处理 Map 中 key 值为空的方法。当前支持的值有：'FAIL'，'DROP'和'LITERAL'。 Option 'FAIL' 将抛出异常，如果遇到 Map 中 key 值为空的数据。 Option 'DROP' 将丢弃 Map 中 key 值为空的数据项。 Option 'LITERAL' 将使用字符串常量来替换 Map 中的空 key 值。字符串常量的值由 'json.map-null-key.literal' 定义。 json.map-null-key.literal 否 'null' String 当 'json.map-null-key.mode' 是LITERAL的时候，指定字符串常量替换 Map 中的空 key 值。

数据湖探索 DLI
数据湖探索 DLI-Debezium Format:参数说明

参数说明表1 参数是否必选默认值是否必选描述 format 是 (none) String 指定要使用的格式，此处应为 'debezium-json'。 debezium-json.schema-include 否 false Boolean 设置 Debezium Kafka Connect 时，用户可以启用 Kafka 配置 'value.converter.schemas.enable' 以在消息中包含 schema。此选项表明 Debezium JSON 消息是否包含 schema。 debezium-json.ignore-parse-errors 否 false Boolean 当解析异常时，是跳过当前字段或行，还是抛出错误失败（默认为 false，即抛出错误失败）。如果忽略字段的解析异常，则会将该字段值设置为null。 debezium-json.timestamp-format.standard 否 'SQL' String 声明输入和输出的时间戳格式。当前支持的格式为'SQL'和'ISO-8601'。可选参数 'SQL' 将会以 "yyyy-MM-dd HH:mm:ss.s{precision}" 的格式解析时间戳, 例如 '2020-12-30 12:13:14.123'，且会以相同的格式输出。可选参数 'ISO-8601' 将会以 "yyyy-MM-ddTHH:mm:ss.s{precision}" 的格式解析输入时间戳, 例如 '2020-12-30T12:13:14.123' ，且会以相同的格式输出。 debezium-json.map-null-key.mode 否 'FAIL' String 指定处理 Map 中 key 值为空的方法。当前支持的值有FAIL、DROP和LITERAL。 Option 'FAIL' 将抛出异常，如果遇到 Map 中 key 值为空的数据。 Option 'DROP' 将丢弃 Map 中 key 值为空的数据项。 Option 'LITERAL' 将使用字符串常量来替换 Map 中的空 key 值。字符串常量的值由 'debezium-json.map-null-key.literal' 定义。 debezium-json.map-null-key.literal 否 'null' String 当 'debezium-json.map-null-key.mode' 是 LITERAL 的时候，指定字符串常量替换 Map 中的空 key 值。

数据湖探索 DLI
数据湖探索 DLI-Debezium Format:功能描述

功能描述 Debezium是一个 CDC（Changelog Data Capture，变更数据捕获）的工具，可以把其他数据库的更改实时流式传输到 Kafka 中。 Debezium 为变更日志提供了统一的格式结构，并支持使用 JSON消息。 Flink 支持将 Debezium JSON解析为 INSERT / UPDATE / DELETE 消息到 Flink SQL 系统中。在很多情况下，利用这个特性非常的有用，例如将增量数据从数据库同步到其他系统日志审计数据库的实时物化视图关联维度数据库的变更历史，等等。

数据湖探索 DLI
数据湖探索 DLI-CSV Format:参数说明

参数说明表1 参数是否必选默认值类型说明 format 是 (none) String 指定要使用的格式，这里应该是 'csv'。 csv.field-delimiter 否， String 字段分隔符 (默认',')，必须为单字符。您可以使用反斜杠字符指定一些特殊字符，例如 '\t' 代表制表符。您也可以通过 unicode 编码在纯 SQL 文本中指定一些特殊字符，例如 'csv.field-delimiter' = '\u0001' 代表 0x01 字符。 csv.disable-quote-character 否 false Boolean 是否禁止对引用的值使用引号 (默认是 false). 如果禁止，选项 'csv.quote-character' 不能设置。 csv.quote-character 否 ‘’ String 用于围住字段值的引号字符 (默认"). csv.allow-comments 否 false Boolean 是否允许忽略注释行（默认不允许），注释行以 '#' 作为起始字符。如果允许注释行，请确保 csv.ignore-parse-errors 也开启了从而允许空行。 csv.ignore-parse-errors 否 false Boolean 当解析异常时，是跳过当前字段或行，还是抛出错误失败（默认为 false，即抛出错误失败）。如果忽略字段的解析异常，则会将该字段值设置为null。 csv.array-element-delimiter 否； String 分隔数组和行元素的字符串(默认';'). csv.escape-character 否 (none) String 转义字符(默认关闭). csv.null-literal 否 (none) String 是否将 "null" 字符串转化为 null 值。

数据湖探索 DLI
数据湖探索 DLI-Confluent Avro Format:功能描述

功能描述 Avro Schema Registry (avro-confluent) 格式能让您读取被 io.confluent.kafka.serializers.KafkaAvroSerializer序列化的记录，以及可以写入成能被 io.confluent.kafka.serializers.KafkaAvroDeserializer反序列化的记录。当以这种格式读取（反序列化）记录时，将根据记录中编码的 schema 版本 id 从配置的 Confluent Schema Registry 中获取 Avro writer schema ，而从 table schema 中推断出 reader schema。当以这种格式写入（序列化）记录时，Avro schema 是从 table schema 中推断出来的，并会用来检索要与数据一起编码的 schema id。我们会在配置的 Confluent Schema Registry 中配置的 subject 下，检索 schema id。subject 通过 avro-confluent.schema-registry.subject 参数来指定。

数据湖探索 DLI
数据湖探索 DLI-Canal Format:功能描述

功能描述 Canal是一个 CDC（ChangeLog Data Capture，变更日志数据捕获）工具，可以实时地将 MySQL 变更传输到其他系统。Canal 为变更日志提供了统一的数据格式，并支持使用 JSON 或 protobuf序列化消息（Canal 默认使用 protobuf）。 Flink 支持将 Canal 的 JSON 消息解析为 INSERT / UPDATE / DELETE 消息到 Flink SQL 系统中。在很多情况下，利用这个特性非常的有用，例如将增量数据从数据库同步到其他系统日志审计数据库的实时物化视图关联维度数据库的变更历史，等等。 Flink 还支持将 Flink SQL 中的 INSERT / UPDATE / DELETE 消息编码为 Canal 格式的 JSON 消息，输出到 Kafka 等存储中。但需要注意的是，目前 Flink 还不支持将 UPDATE_BEFORE 和 UPDATE_AFTER 合并为一条 UPDATE 消息。因此，Flink 将 UPDATE_BEFORE 和 UPDATE_AFTER 分别编码为 DELETE 和 INSERT 类型的 Canal 消息。

数据湖探索 DLI
数据湖探索 DLI-Canal Format:参数说明

参数说明表1 参数说明参数是否必选默认值类型说明 format 是 (none) String 指定要使用的格式，此处应为 'canal-json'. canal-json.ignore-parse-errors 否 false Boolean 当解析异常时，是跳过当前字段或行，还是抛出错误失败（默认为 false，即抛出错误失败）。如果忽略字段的解析异常，则会将该字段值设置为null。 canal-json.timestamp-format.standard 否 'SQL' String 指定输入和输出时间戳格式。当前支持的值是：'SQL'和'ISO-8601'。选项 'SQL' 将解析 "yyyy-MM-dd HH:mm:ss.s{precision}" 格式的输入时间戳，例如 '2020-12-30 12:13:14.123'，并以相同格式输出时间戳。选项 'ISO-8601' 将解析 "yyyy-MM-ddTHH:mm:ss.s{precision}" 格式的输入时间戳，例如 '2020-12-30T12:13:14.123'，并以相同的格式输出时间戳。 canal-json.map-null-key.mode 否 'FALL' String 指定处理 Map 中 key 值为空的方法. 当前支持的值有'FAIL', 'DROP'和 'LITERAL'。 Option 'FAIL' 将抛出异常，如果遇到 Map 中 key 值为空的数据。 Option 'DROP' 将丢弃 Map 中 key 值为空的数据项。 Option 'LITERAL' 将使用字符串常量来替换 Map 中的空 key 值。字符串常量的值由 'canal-json.map-null-key.literal' 定义。 canal-json.map-null-key.literal 否 'null' String 当 'canal-json.map-null-key.mode' 是 LITERAL 的时候，指定字符串常量替换 Map 中的空 key 值。 canal-json.database.include 否 (none) String 仅读取指定数据库的 changelog 记录（通过对比 Canal 记录中的 "database" 元数据字段）。 canal-json.table.include 否 (none) String 仅读取指定表的 changelog 记录（通过对比 Canal 记录中的 "table" 元数据字段）。

数据湖探索 DLI

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！