创建DLI表-华为云

数据湖探索 DLI-使用DataSource语法创建DLI表:常见问题

常见问题使用default创建DataSource表时提示“xxx dli datasource v2 tables is only supported in spark3.3 or later version.”怎么办？使用default创建DataSource表时引擎版本不低于Spark 3.3.1，如果引擎版本低于Spark 3.3.1则会提示上述错误信息，此时请切换使用Hive语法创建表。详细操作请参考使用Hive语法创建 DLI 表。使用Spark 3.3.1执行jar作业报错 "xxx don`t support dli v1 table."怎么办？该错误提示信息说明使用Spark 3.3.1执行Jar作业时不支持执行与该表相关的操作，请切换使用Hive语法重构表数据结构，例如使用Hive语法[STORED AS file_format] CTAS重新创建表后再执行作业。详细创建表操作请参考使用Hive语法创建DLI表。

数据湖探索 DLI 创建DLI表

数据湖探索 DLI-使用DataSource语法创建DLI表:示例5：创建DLI分区表，自定义表的OPTIONS参数

示例5：创建DLI分区表，自定义表的OPTIONS参数示例说明：创建DLI表时支持自定义属性名与属性值，OPTIONS参数说明可参考表2。本例创建名为table3并以col_2为分区依据的DLI分区表。在OPTIONS中配置pmultiLevelDirEnable和compression。 multiLevelDirEnable：本例设置为true，表示查询该表时会迭代读取表路径中的所有文件和子目录文件，若不需要此项配置可以设置为false或不设置（默认为false）； compression：当创建的OBS表需要压缩时，可以使用compression关键字来配置压缩格式，本例中就使用了zstd压缩格式。 1 2 3 4 5 6 7 8 9 10 CREATE TABLE IF NOT EXISTs table3 ( col_1 STRING, col_2 int ) USING parquet PARTITIONED BY (col_2) OPTIONS ( multiLeveldirenable = true, compression = 'zstd' );

数据湖探索 DLI 创建DLI表

数据湖探索 DLI-使用DataSource语法创建DLI表:参数说明

参数说明表1 参数描述参数是否必选描述 db_name 否 Database名称。由字母、数字和下划线（_）组成。不能是纯数字，且不能以数字和下划线开头。 table_name 是 Database中的表名。由字母、数字和下划线（_）组成。不能是纯数字，且不能以数字和下划线开头。匹配规则为：^(?!_)(?![0-9]+$)[A-Za-z0-9_$]*$。特殊字符需要使用单引号（''）包围起来。表名对大小写不敏感，即不区分大小写。 col_name 是以逗号分隔的带数据类型的列名。列名由字母、数字和下划线（_）组成。不能是纯数字，且至少包含一个字母。列名为大小写不敏感，即不区分大小写。 col_type 是列字段的数据类型。数据类型为原生类型。请参考原生数据类型。 col_comment 否列字段描述。仅支持字符串常量。 file_format 是 DLI表数据存储格式，支持：parquet和orc格式。 table_comment 否表描述。仅支持字符串常量。 select_statement 否用于CTAS命令，将源表的select查询结果或某条数据插入到新创建的DLI表中。表2 OPTIONS参数描述参数是否必选描述默认值 multiLevelDirEnable 否是否迭代查询子目录中的数据。当配置为true时，查询该表时会迭代读取该表路径中所有文件，包含子目录中的文件。 false compression 否指定压缩格式。一般为parquet格式时指定该参数，推荐使用'zstd'压缩格式。 -

数据湖探索 DLI 创建DLI表

数据湖探索 DLI-使用DataSource语法创建DLI表:示例2：创建DLI分区表

示例2：创建DLI分区表示例说明：创建一个名为student的分区表，该分区表使用院系编号（facultyNo）和班级编号（classNo）进行分区，该student表会同时按照不同的院系编号（facultyNo）和不同的班级编号（classNo）分区。在实际的使用过程中，您可以选择合适的分区字段并将其添加到PARTITIONED BY关键字后。 1 2 3 4 5 6 7 CREATE TABLE IF NOT EXISTS student ( Name STRING, facultyNo INT, classNo INT ) USING orc PARTITIONED BY (facultyNo, classNo);

数据湖探索 DLI 创建DLI表

数据湖探索 DLI-使用DataSource语法创建DLI表:注意事项

注意事项 CTAS建表语句不能指定表的属性。若没有指定分隔符，则默认为逗号（,）。关于分区表的使用说明：创建分区表时，PARTITIONED BY中指定分区列必须是表中的列，且必须在Column列表中指定类型。分区列只支持string, boolean, tinyint, smallint, short, int, bigint, long, decimal, float, double, date, timestamp类型。创建分区表时，分区字段必须是表字段的最后一个字段或几个字段，且多分区字段的顺序也必须对应。否则将出错。单表分区数最多允许200000个。 2024年1月后新注册使用DLI服务的用户，且使用Spark3.3及以上版本的引擎，在使用DataSource语法创建表时支持使用CTAS创建分区表。

数据湖探索 DLI 创建DLI表

数据湖探索 DLI-使用DataSource语法创建DLI表:语法格式

语法格式 1 2 3 4 5 6 7 CREATE TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name1 col_type1 [COMMENT col_comment1], ...)] USING file_format [OPTIONS (key1=val1, key2=val2, ...)] [PARTITIONED BY (col_name1, col_name2, ...)] [COMMENT table_comment] [AS select_statement];

数据湖探索 DLI 创建DLI表

数据湖探索 DLI-使用DataSource语法创建DLI表:示例5：创建DLI分区表，自定义表的OPTIONS参数

示例5：创建DLI分区表，自定义表的OPTIONS参数示例说明：创建DLI表时支持自定义属性名与属性值，OPTIONS参数说明可参考表2。本例创建名为table3并以col_2为分区依据的DLI分区表。在OPTIONS中配置pmultiLevelDirEnable和compression。 multiLevelDirEnable：本例设置为true，表示查询该表时会迭代读取表路径中的所有文件和子目录文件，若不需要此项配置可以设置为false或不设置（默认为false）； compression：当创建的OBS表需要压缩时，可以使用compression关键字来配置压缩格式，本例中就使用了zstd压缩格式。 1 2 3 4 5 6 7 8 9 10 CREATE TABLE IF NOT EXISTs table3 ( col_1 STRING, col_2 int ) USING parquet PARTITIONED BY (col_2) OPTIONS ( multiLeveldirenable = true, compression = 'zstd' );

数据湖探索 DLI 创建DLI表

数据湖探索 DLI-使用DataSource语法创建DLI表:常见问题

常见问题使用default创建DataSource表时提示“xxx dli datasource v2 tables is only supported in spark3.3 or later version.”怎么办？使用default创建DataSource表时引擎版本不低于Spark 3.3.1，如果引擎版本低于Spark 3.3.1则会提示上述错误信息，此时请切换使用Hive语法创建表。详细操作请参考使用Hive语法创建DLI表。使用Spark 3.3.1执行jar作业报错 "xxx don`t support dli v1 table."怎么办？该错误提示信息说明使用Spark 3.3.1执行Jar作业时不支持执行与该表相关的操作，请切换使用Hive语法重构表数据结构，例如使用Hive语法[STORED AS file_format] CTAS重新创建表后再执行作业。详细创建表操作请参考使用Hive语法创建DLI表。

数据湖探索 DLI 创建DLI表

数据湖探索 DLI-使用DataSource语法创建DLI表:注意事项

注意事项 CTAS建表语句不能指定表的属性。若没有指定分隔符，则默认为逗号（,）。关于分区表的使用说明：创建分区表时，PARTITIONED BY中指定分区列必须是表中的列，且必须在Column列表中指定类型。分区列只支持string, boolean, tinyint, smallint, short, int, bigint, long, decimal, float, double, date, timestamp类型。创建分区表时，分区字段必须是表字段的最后一个字段或几个字段，且多分区字段的顺序也必须对应。否则将出错。单表分区数最多允许200000个。 2024年1月后新注册使用DLI服务的用户，且使用Spark3.3及以上版本的引擎，在使用DataSource语法创建表时支持使用CTAS创建分区表。

数据湖探索 DLI 创建DLI表

数据湖探索 DLI-使用DataSource语法创建DLI表:示例2：创建DLI分区表

示例2：创建DLI分区表示例说明：创建一个名为student的分区表，该分区表使用院系编号（facultyNo）和班级编号（classNo）进行分区，该student表会同时按照不同的院系编号（facultyNo）和不同的班级编号（classNo）分区。在实际的使用过程中，您可以选择合适的分区字段并将其添加到PARTITIONED BY关键字后。 1 2 3 4 5 6 7 CREATE TABLE IF NOT EXISTS student ( Name STRING, facultyNo INT, classNo INT ) USING orc PARTITIONED BY (facultyNo, classNo);

数据湖探索 DLI 创建DLI表

数据湖探索 DLI-使用DataSource语法创建DLI表:语法格式

语法格式 1 2 3 4 5 6 7 CREATE TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name1 col_type1 [COMMENT col_comment1], ...)] USING file_format [OPTIONS (key1=val1, key2=val2, ...)] [PARTITIONED BY (col_name1, col_name2, ...)] [COMMENT table_comment] [AS select_statement];

数据湖探索 DLI 创建DLI表

数据湖探索 DLI-使用DataSource语法创建DLI表:参数说明

参数说明表1 参数描述参数是否必选描述 db_name 否 Database名称。由字母、数字和下划线（_）组成。不能是纯数字，且不能以数字和下划线开头。 table_name 是 Database中的表名。由字母、数字和下划线（_）组成。不能是纯数字，且不能以数字和下划线开头。匹配规则为：^(?!_)(?![0-9]+$)[A-Za-z0-9_$]*$。特殊字符需要使用单引号（''）包围起来。表名对大小写不敏感，即不区分大小写。 col_name 是以逗号分隔的带数据类型的列名。列名由字母、数字和下划线（_）组成。不能是纯数字，且至少包含一个字母。列名为大小写不敏感，即不区分大小写。 col_type 是列字段的数据类型。数据类型为原生类型。请参考原生数据类型。 col_comment 否列字段描述。仅支持字符串常量。 file_format 是 DLI表数据存储格式，支持：parquet和orc格式。 table_comment 否表描述。仅支持字符串常量。 select_statement 否用于CTAS命令，将源表的select查询结果或某条数据插入到新创建的DLI表中。表2 OPTIONS参数描述参数是否必选描述默认值 multiLevelDirEnable 否是否迭代查询子目录中的数据。当配置为true时，查询该表时会迭代读取该表路径中所有文件，包含子目录中的文件。 false compression 否指定压缩格式。一般为parquet格式时指定该参数，推荐使用'zstd'压缩格式。 -

数据湖探索 DLI 创建DLI表

数据湖探索 DLI-使用Hive语法创建DLI表:示例6：创建textfile格式的非分区表，并设置ROW FORMAT

示例6：创建textfile格式的非分区表，并设置ROW FORMAT 示例说明：本例创建名为table4的textfile类型的非分区表，并设置ROW FORMAT相关格式（ROW FORMAT功能只支持textfile类型的表）。字段（Fields）是表格中的列，每个字段有一个名称和数据类型，表中字段之间以'/'分隔。集合项（COLLECTION ITEMS）指的是一组数据中的元素，可以是数组、列表或集合等，table4中集合项以'$'分隔。映射键（MAP KEYS）是一种键值对的数据结构，用于存储一组相关联的数据，表中Map键以'#'分隔。行（Rows）表格中的行，每一行包含一组字段值，表中行以'\n'结束（注意，只支持用'\n'作为行分隔符）。 NULL表示缺少值或未知值的特殊值。在表格中，NULL表示该字段没有值或该值未知。如果数据中存在null值，则用字符串“null”表示。 1 2 3 4 5 6 7 8 9 10 11 CREATE TABLE IF NOT EXISTS table4 ( col_1 STRING, col_2 INT ) STORED AS TEXTFILE ROW FORMAT DELIMITED FIELDS TERMINATED BY '/' COLLECTION ITEMS TERMINATED BY '$' MAP KEYS TERMINATED BY '#' LINES TERMINATED BY '\n' NULL DEFINED AS 'NULL';

数据湖探索 DLI 创建DLI表

数据湖探索 DLI-使用Hive语法创建DLI表:示例1：创建DLI非分区表

示例1：创建DLI非分区表示例说明：创建名为table1的DLI非分区表，并用STORED AS关键字指定该表的存储格式为orc格式。在您的实际使用中，可以将DLI表存储为textfile, avro, orc, sequencefile, rcfile, parquet等类型。 1 2 3 4 5 CREATE TABLE IF NOT EXISTS table1 ( col_1 STRING, col_2 INT ) STORED AS orc;

数据湖探索 DLI 创建DLI表

数据湖探索 DLI-使用Hive语法创建DLI表:示例5：创建DLI分区表，自定义表的TBLPROPERTIES参数

示例5：创建DLI分区表，自定义表的TBLPROPERTIES参数示例说明：本例创建名为table3并以col_3为分区依据的DLI分区表。在TBLPROPERTIES中配置dli.multi.version.enable、comment、orc.compress和auto.purge。 dli.multi.version.enable：本例配置为true，即代表开启DLI数据多版本功能，用于表数据的备份与恢复。 comment：表描述信息，TBLPROPERTIES内的描述信息支持后续修改。 orc.compress：指定orc存储的压缩方式，本例定义为ZLIB。 auto.purge：本例配置为true，即删除或者覆盖的数据会不经过回收站，直接被删除。 1 2 3 4 5 6 7 8 9 10 11 12 CREATE TABLE IF NOT EXISTs table3 ( col_1 STRING, col_2 STRING ) PARTITIONED BY (col_3 DATE) STORED AS rcfile TBLPROPERTIES ( dli.multi.version.enable = true, comment = 'Created by dli', orc.compress = 'ZLIB', auto.purge = true );

数据湖探索 DLI 创建DLI表

云服务器内容精选

创建DLI表

7*24

备案

专业服务

退订

建议反馈

售前咨询热线