华为云用户手册

数据湖探索 DLI-使用Hive语法创建DLI表:关键字

关键字 IF NOT EXISTS：指定该关键字以避免表已经存在时报错。 COMMENT：字段或表描述。 PARTITIONED BY：指定分区字段。 ROW FORMAT：行数据格式。 STORED AS：指定所存储的文件格式，当前该关键字只支持指定TEXTFILE, AVRO, ORC, SEQUENCEFILE, RCFILE, PARQUET几种格式。创建 DLI 表时必须指定此关键字。 TBLPROPERTIES：用于为表添加key/value的属性。在表存储格式为PARQUET时，可以通过指定TBLPROPERTIES(parquet.compression = 'zstd')来指定表压缩格式为zstd。 AS：使用CTAS创建表。

数据湖探索 DLI
数据湖探索 DLI-使用Hive语法创建DLI表:参数说明

参数说明表1 参数描述参数是否必选描述 db_name 否 Database名称。由字母、数字和下划线（_）组成。不能是纯数字，且不能以数字和下划线开头。 table_name 是 Database中的表名。由字母、数字和下划线（_）组成。不能是纯数字，且不能以数字和下划线开头。匹配规则为：^(?!_)(?![0-9]+$)[A-Za-z0-9_$]*$。如果特殊字符需要使用单引号（''）包围起来。 col_name 是列字段名称。列字段由字母、数字和下划线（_）组成。不能是纯数字，且至少包含一个字母。列名为大小写不敏感，即不区分大小写。 col_type 是列字段的数据类型。数据类型为原生类型。请参考原生数据类型。 col_comment 否列字段描述。仅支持字符串常量。 row_format 是行数据格式。row format功能只支持textfile类型的表。 file_format 是 DLI表数据存储格式：支持textfile, avro, orc, sequencefile, rcfile, parquet。 table_comment 否表描述。仅支持字符串常量。 key = value 否设置TBLPROPERTIES具体属性和值。在表存储格式为PARQUET时，可以通过指定TBLPROPERTIES(parquet.compression = 'zstd')来指定表压缩格式为zstd。 select_statement 否用于CTAS命令，将源表的select查询结果或某条数据插入到新创建的DLI表中。

数据湖探索 DLI
数据湖探索 DLI-使用Hive语法创建DLI表:示例2：创建DLI分区表

示例2：创建DLI分区表示例说明：创建一个名为student的分区表，该分区表使用院系编号（facultyNo）和班级编号（classNo）进行分区，该student表会同时按照不同的院系编号（facultyNo）和不同的班级编号（classNo）分区。在实际的使用过程中，您可以选择合适的分区字段并将其添加到PARTITIONED BY关键字后。 1 2 3 4 5 6 7 8 9 CREATE TABLE IF NOT EXISTS student( id int, name STRING ) STORED AS avro PARTITIONED BY ( facultyNo INT, classNo INT );

数据湖探索 DLI
数据湖探索 DLI-使用Hive语法创建DLI表:注意事项

注意事项 CTAS建表语句不能指定表的属性。 Hive DLI表不支持在建表时指定多字符的分隔符。关于分区表的使用说明：创建分区表时，PARTITONED BY中指定分区列必须是不在表中的列，且需要指定数据类型。分区列支持string, boolean, tinyint, smallint, short, int, bigint, long, decimal, float, double, date, timestamp等hive开源支持的类型。支持指定多个分区字段，分区字段只需在PARTITIONED BY关键字后指定，不能像普通字段一样在表名后指定，否则将出错。单表分区数最多允许200000个。 Spark 3.3及以上版本支持使用Hive语法的CTAS语句创建分区表。

数据湖探索 DLI
数据湖探索 DLI-使用Hive语法创建DLI表:语法格式

语法格式 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 CREATE TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name1 col_type1 [COMMENT col_comment1], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name2 col_type2, [COMMENT col_comment2], ...)] [ROW FORMAT row_format] STORED AS file_format [TBLPROPERTIES (key = value)] [AS select_statement]; row_format: : SERDE serde_cls [WITH SERDEPROPERTIES (key1=val1, key2=val2, ...)] | DELIMITED [FIELDS TERMINATED BY char [ESCAPED BY char]] [COLLECTION ITEMS TERMINATED BY char] [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char] [NULL DEFINED AS char]

数据湖探索 DLI
数据湖探索 DLI-插入数据至CSS表:参数说明

参数说明表1 参数描述参数描述 DLI_TABLE 已创建跨源连接的DLI表名称。 DLI_TEST 为包含待查询数据的表。 field1,field2...，field 表“DLI_TEST”中的列值，需要匹配表“DLI_TABLE”的列值和类型。 where_condition 查询过滤条件。 num 对查询结果进行限制，num参数仅支持INT类型。 values_row 想要插入到表中的值，列与列之间用逗号分隔。

数据湖探索 DLI
数据湖探索 DLI-插入数据至CSS表:语法格式

语法格式将SELECT查询结果插入到表中： 1 2 3 4 5 6 7 INSERT INTO DLI_TABLE SELECT field1,field2... [FROM DLI_TEST] [WHERE where_condition] [LIMIT num] [GROUP BY field] [ORDER BY field] ...; 将某条数据插入到表中： 1 2 INSERT INTO DLI_TABLE VALUES values_row [, values_row ...];

数据湖探索 DLI
数据湖探索 DLI-创建DLI表关联CSS:示例

示例 1 2 3 4 5 6 7 8 CREATE TABLE IF NOT EXISTS dli_to_css (doc_id String, name string, age int) USING CSS OPTIONS ( es.nodes 'to-css-1174404703-LzwpJEyx.datasource.com:9200', resource '/dli_index/dli_type', pushdown 'false', strict 'true', es.nodes.wan.only 'true', es.mapping.id 'doc_id');

数据湖探索 DLI 跨源连接CSS表
数据湖探索 DLI-创建DLI表关联CSS:语法格式

语法格式 1 2 3 4 5 6 7 8 9 10 11 12 CREATE TABLE [IF NOT EXISTS] TABLE_NAME( FIELDNAME1 FIELDTYPE1, FIELDNAME2 FIELDTYPE2) USING CS S OPTIONS ( 'es.nodes'='xx', 'resource'='type_path_in_CSS', 'pushdown'='true', 'strict'='false', 'batch.size.entries'= '1000', 'batch.size.bytes'= '1mb', 'es.nodes.wan.only' = 'true', 'es.mapping.id' = 'FIELDNAME');

数据湖探索 DLI 跨源连接CSS表
数据湖探索 DLI-插入数据至RDS表:语法格式

语法格式将SELECT查询结果插入到表中： 1 2 3 4 5 6 7 INSERT INTO DLI_TABLE SELECT field1,field2... [FROM DLI_TEST] [WHERE where_condition] [LIMIT num] [GROUP BY field] [ORDER BY field] ...; 将某条数据插入到表中： 1 2 INSERT INTO DLI_TABLE VALUES values_row [, values_row ...];

数据湖探索 DLI
数据湖探索 DLI-插入数据至RDS表:参数说明

参数说明表1 参数描述参数描述 DLI_TABLE 已创建跨源连接的DLI表名称。 DLI_TEST 为包含待查询数据的表。 field1,field2...，field 表“DLI_TEST”中的列值，需要匹配表“DLI_TABLE”的列值和类型。 where_condition 查询过滤条件。 num 对查询结果进行限制，num参数仅支持INT类型。 values_row 想要插入到表中的值，列与列之间用逗号分隔。

数据湖探索 DLI
数据湖探索 DLI-创建DLI表关联RDS:语法格式

语法格式 1 2 3 4 5 6 7 CREATE TABLE [IF NOT EXISTS] TABLE_NAME USING JDBC OPTIONS ( 'url'='xx', 'driver'='DRIVER_NAME', 'dbtable'='db_name_in_RDS.table_name_in_RDS', 'passwdauth' = 'xxx', 'encryption' = 'true');

数据湖探索 DLI 跨源连接RDS表
数据湖探索 DLI-创建DLI表关联RDS:示例

示例访问MySQL 1 2 3 4 5 6 7 CREATE TABLE IF NOT EXISTS dli_to_rds USING JDBC OPTIONS ( 'url'='jdbc:mysql://to-rds-117405104-3eAHxnlz.datasource.com:3306', 'driver'='com.mysql.jdbc.Driver', 'dbtable'='rds_test.test1', 'passwdauth' = 'xxx', 'encryption' = 'true'); 访问PostGre 1 2 3 4 5 6 7 CREATE TABLE IF NOT EXISTS dli_to_rds USING JDBC OPTIONS ( 'url'='jdbc:postgresql://to-rds-1174405119-oLRHAGE7.datasource.com:3306/postgreDB', 'driver'='org.postgresql.Driver', 'dbtable'='pg_schema.test1', 'passwdauth' = 'xxx', 'encryption' = 'true');

数据湖探索 DLI 跨源连接RDS表
数据湖探索 DLI-插入数据至DWS表:语法格式

语法格式将SELECT查询结果插入到表中： 1 2 3 4 5 6 7 INSERT INTO DLI_TABLE SELECT field1,field2... [FROM DLI_TEST] [WHERE where_condition] [LIMIT num] [GROUP BY field] [ORDER BY field] ...; 将某条数据插入到表中： 1 2 INSERT INTO DLI_TABLE VALUES values_row [, values_row ...];

数据湖探索 DLI
数据湖探索 DLI-插入数据至DWS表:参数说明

参数说明表1 参数描述参数描述 DLI_TABLE 已创建跨源连接的DLI表名称。 DLI_TEST 为包含待查询数据的表。 field1,field2...，field 表“DLI_TEST”中的列值，需要匹配表“DLI_TABLE”的列值和类型。 where_condition 查询过滤条件。 num 对查询结果进行限制，num参数仅支持INT类型。 values_row 想要插入到表中的值，列与列之间用逗号分隔。

数据湖探索 DLI
数据湖探索 DLI-创建DLI表关联DWS:示例

示例 1 2 3 4 5 6 CREATE TABLE IF NOT EXISTS dli_to_dws USING JDBC OPTIONS ( 'url'='jdbc:postgresql://to-dws-1174405119-ih1Ur78j.datasource.com:8000/postgres', 'dbtable'='test_dws', 'passwdauth' = 'xxx', 'encryption' = 'true');

数据湖探索 DLI 跨源连接DWS表
数据湖探索 DLI-OVER:语法格式

语法格式 1 2 3 4 5 SELECT window_func(args) OVER ([PARTITION BY col_name, col_name, ...] [ORDER BY col_name, col_name, ...] [ROWS | RANGE BETWEEN (CURRENT ROW | (UNBOUNDED |[num]) PRECEDING) AND (CURRENT ROW | ( UNBOUNDED | [num]) FOLLOWING)]);

数据湖探索 DLI
数据湖探索 DLI-OVER:关键字

关键字 PARTITION BY：可以用一个或多个键分区。和GROUP BY子句类似，PARTITION BY将表按分区键分区，每个分区是一个窗口，窗口函数作用于各个分区。单表分区数最多允许7000个。 ORDER BY：决定窗口函数求值的顺序。可以用一个或多个键排序。通过ASC或DESC决定升序或降序。窗口由WINDOW子句指定。如果不指定，默认窗口等同于ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW，即窗口从表或分区（如果OVER子句中用PARTITION BY分区）的初始处到当前行。 WINDOW：通过指定一个行区间来定义窗口。 CURRENT ROW：表示当前行。 num PRECEDING：定义窗口的下限，即窗口从当前行向前数num行处开始。 UNBOUNDED PRECEDING：表示窗口没有下限。 num FOLLOWING：定义窗口的上限，即窗口从当前行向后数num行处结束。 UNBOUNDED FOLLOWING：表示窗口没有上限。 ROWS BETWEEN…和RANGE BETWEEN…的区别： ROW为物理窗口，即根据ORDER BY子句排序后，取前N行及后N行的数据计算（与当前行的值无关，只与排序后的行号相关）。 RANGE为逻辑窗口，即指定当前行对应值的范围取值，列数不固定，只要行值在范围内，对应列都包含在内。窗口有以下多种场景，如窗口只包含当前行。 1 ROWS BETWEEN CURRENT ROW AND CURRENT ROW 窗口从当前行向前数3行开始，到当前行向后数5行结束。 1 ROWS BETWEEN 3 PRECEDING AND 5 FOLLOWING 窗口从表或分区的开头开始，到当前行结束。 1 ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW 窗口从当前行开始，到表或分区的结尾结束。 1 ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING 窗口从表或分区的开头开始，到表或分区的结尾结束。 1 ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING

数据湖探索 DLI
数据湖探索 DLI-WITH...AS:示例

示例将“SELECT courseId FROM course_info WHERE courseName = 'Biology'”定义为公共表达式nv，然后在后续的查询中直接利用nv代替该SELECT语句。 1 WITH nv AS (SELECT courseId FROM course_info WHERE courseName = 'Biology') SELECT DISTINCT courseId FROM nv;

数据湖探索 DLI
数据湖探索 DLI-HAVING:示例

示例对表student_info按字段name进行分组，计算每组中记录数，若其记录数等于子查询中表course_info的记录数，返回表student_info中字段name等于表course_info字段name的记录数。 1 2 3 SELECT name FROM student_info GROUP BY name HAVING count(name) = (SELECT count(*) FROM course_info);

数据湖探索 DLI
数据湖探索 DLI-WHERE:关键字

关键字 ALL：返回重复的行。为默认选项。其后只能跟*，否则会出错。 DISTINCT：从结果集移除重复的行。 WHERE：WHERE子句嵌套将利用子查询的结果作为过滤条件。 operator：包含关系运算符中的等式与不等式操作符及IN，NOT IN，EXISTS，NOT EXISTS操作符。当operator为IN或者NOT IN时，子查询的返回结果必须是单列。当operator为EXISTS或者NOT EXISTS时，子查询中一定要包含WHERE条件过滤。当子查询中有字段与外部查询相同时，需要在该字段前加上表名。

数据湖探索 DLI 子句
数据湖探索 DLI-右外连接:示例

示例右外连接和左外连接相似，但是会将右边表（这里的course_info)中的所有记录返回，没有匹配值的左表记录将返回NULL。 1 2 SELECT student_info.name, course_info.courseName FROM student_info RIGHT OUTER JOIN course_info ON (student_info.courseId = course_info.courseId);

数据湖探索 DLI
数据湖探索 DLI-左外连接:示例

示例左外连接时利用student_info表中的courseId与course_info中的courseId进行匹配，返回已经选课的学生姓名及所选的课程名称，没有匹配值的右表记录将返回NULL。 1 2 SELECT student_info.name, course_info.courseName FROM student_info LEFT OUTER JOIN course_info ON (student_info.courseId = course_info.courseId);

数据湖探索 DLI
数据湖探索 DLI-内连接:示例

示例通过将student_info与course_info两张表中的课程编号匹配建立JOIN连接，来查看学生姓名及所选课程名称。 1 2 SELECT student_info.name, course_info.courseName FROM student_info JOIN course_info ON (student_info.courseId = course_info.courseId);

数据湖探索 DLI 连接
数据湖探索 DLI-GROUPING SETS:关键字

关键字 GROUPING SETS：为对GROUP BY的扩展，例如 SELECT a, b, sum(expression) FROM table GROUP BY a, b GROUPING SETS((a,b)); 将转换为以下一条查询： 1 2 SELECT a, b, sum(expression) FROM table GROUP BY a, b; SELECT a, b, sum(expression) FROM table GROUP BY a, b GROUPING SETS(a,b); 将转换为以下两条查询： 1 2 3 SELECT a, NULL, sum(expression) FROM table GROUP BY a; UNION SELECT NULL, b, sum(expression) FROM table GROUP BY b; SELECT a, b, sum(expression) FROM table GROUP BY a, b GROUPING SETS((a,b), a); 将转换为以下两条查询： 1 2 3 SELECT a, b, sum(expression) FROM table GROUP BY a, b; UNION SELECT a, NULL, sum(expression) FROM table GROUP BY a; SELECT a, b, sum(expression) FROM table GROUP BY a, b GROUPING SETS((a,b), a, b, ()); 将转换为以下四条查询： 1 2 3 4 5 6 7 SELECT a, b, sum(expression) FROM table GROUP BY a, b; UNION SELECT a, NULL, sum(expression) FROM table GROUP BY a, NULL; UNION SELECT NULL, b, sum(expression) FROM table GROUP BY NULL, b; UNION SELECT NULL, NULL, sum(expression) FROM table;

数据湖探索 DLI
数据湖探索 DLI-ROLLUP:关键字

关键字 ROLLUP：为GROUP BY的扩展，例如：SELECT a, b, c, SUM(expression) FROM table GROUP BY a, b, c WITH ROLLUP;将转换成以下四条查询： (a, b, c)组合小计 1 2 SELECT a, b, c, sum(expression) FROM table GROUP BY a, b, c; (a, b)组合小计 1 2 SELECT a, b, NULL, sum(expression) FROM table GROUP BY a, b; (a)组合小计 1 2 SELECT a, NULL, NULL, sum(expression) FROM table GROUP BY a; 总计 1 SELECT NULL, NULL, NULL, sum(expression) FROM table;

数据湖探索 DLI
数据湖探索 DLI-按列GROUP BY:关键字

关键字 GROUP BY：按列可分为单列GROUP BY与多列GROUP BY。单列GROUP BY：指GROUP BY子句中仅包含一列，col_name_list中包含的字段必须出现在attr_expr_list的字段内，attr_expr_list中可以使用多个聚合函数，比如count()，sum()，聚合函数中可以包含其他字段。多列GROUP BY：指GROUP BY子句中不止一列，查询语句将按照GROUP BY的所有字段分组，所有字段都相同的记录将被放在同一组中，同样，GROUP BY中出现的字段必须在attr_expr_list的字段内，attr_expr_list也可以使用聚合函数。

数据湖探索 DLI 分组
数据湖探索 DLI-基本语句:语法格式

语法格式 1 2 3 4 5 6 7 SELECT [ALL | DISTINCT] attr_expr_list FROM table_reference [WHERE where_condition] [GROUP BY col_name_list] [ORDER BY col_name_list][ASC | DESC] [CLUSTER BY col_name_list | DISTRIBUTE BY col_name_list] [SORT BY col_name_list]] [LIMIT number];

数据湖探索 DLI SELECT
数据湖探索 DLI-基本语句:关键字

关键字表1 SELECT关键字说明参数描述 ALL ALL关键字用于返回数据库所有匹配的行，包括重复的行。ALL关键字的后面只能跟*，否则执行语句会出错。 ALL是SQL语句的默认行为，通常不会被明确写出，如果不指定ALL或DISTINCT，查询结果将包含所有的行，即使是重复的行数据也将被返回。 DISTINCT 在SELECT语句中使用DISTINCT关键字时，系统会在查询结果中去除重复的数据，确保结果的唯一性。 WHERE 指定查询的过滤条件，支持算术运算符、关系运算符和逻辑运算符。 where_condition 过滤条件。 GROUP BY 指定分组的字段，支持单字段及多字段分组。 col_name_list 字段列表。 ORDER BY 对查询结果进行排序。 ASC/DESC ASC为升序，DESC为降序，默认为ASC。 CLUSTER BY 为分桶且排序，按照分桶字段先进行分桶，再在每个桶中依据该字段进行排序，即当DISTRIBUTE BY的字段与SORT BY的字段相同且排序为降序时，两者的作用与CLUSTER BY等效。 DISTRIBUTE BY 指定分桶字段，不进行排序。 SORT BY 将会在桶内进行排序。 LIMIT 对查询结果进行限制，number参数仅支持INT类型。

数据湖探索 DLI SELECT
数据湖探索 DLI-回收权限:注意事项

注意事项 privilege必须为赋权对象在resource中的已授权限，否则会回收失败。Privilege支持的权限类型可参见数据权限列表。 resource可以是queue、database、table、view、column，格式分别为： queue的格式为：queues.queue_name database的格式为：databases.db_name table的格式为：databases.db_name.tables.table_name view的格式为：databases.db_name.tables.view_name column的格式为：databases.db_name.tables.table_name.columns.column_name

数据湖探索 DLI

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

华为云用户手册

7*24

备案

专业服务

退订

建议反馈

售前咨询热线