华为云首页用户手册

云数据库 GAUSSDB-CREATE TABLE PARTITION:参数说明

时间：2024-11-02 18:53:04

云数据库 GAUSSDB

参数说明

IF NOT EXISTS
如果已经存在相同名称的表，不会抛出一个错误，而会发出一个通知，告知表关系已存在。
partition_table_name
分区表的名称。

取值范围：字符串，要符合标识符的命名规范。
column_name
新表中要创建的字段名。

取值范围：字符串，要符合标识符的命名规范。
data_type
字段的数据类型。
COLLATE collation
COLLATE子句指定列的排序规则（该列必须是可排列的数据类型）。如果没有指定，则使用默认的排序规则。排序规则可以使用“select * from pg_collation;”命令从pg_collation系统表中查询，默认的排序规则为查询结果中以default开始的行。
CONSTRAINT constraint_name
列约束或表约束的名称。可选的约束子句用于声明约束，新行或者更新的行必须满足这些约束才能成功插入或更新。

定义约束有两种方法：
- 列约束：作为一个列定义的一部分，仅影响该列。
- 表约束：不和某个列绑在一起，可以作用于多个列。
LIKE source_table [ like_option ... ]
LIKE子句声明一个表，新表自动从这个表里面继承所有字段名及其数据类型和非空约束。

和INHERITS不同，新表与原来的表之间在创建动作完毕之后是完全无关的。在源表做的任何修改都不会传播到新表中，并且也不可能在扫描源表的时候包含新表的数据。
- 字段缺省表达式只有在声明了INCLUDING DEFAULTS之后才会包含进来。缺省是不包含缺省表达式的，即新表中所有字段的缺省值都是NULL。
- 如果指定了INCLUDING GENERATED，则源表列的生成表达式会复制到新表中。默认不复制生成表达式。
- 非空约束将总是复制到新表中，CHECK约束则仅在指定了INCLUDING CONSTRAINTS的时候才复制，而其他类型的约束则永远也不会被复制。此规则同时适用于表约束和列约束。
- 和INHERITS不同，被复制的列和约束并不使用相同的名称进行融合。如果明确的指定了相同的名称或者在另外一个LIKE子句中，将会报错。
- 如果指定了INCLUDING INDEXES，则源表上的索引也将在新表上创建，默认不建立索引。
- 如果指定了INCLUDING STORAGE，则拷贝列的STORAGE设置也将被拷贝，默认情况下不包含STORAGE设置。
- 如果指定了INCLUDING COMMENTS，则源表列、约束和索引的注释也会被拷贝过来。默认情况下，不拷贝源表的注释。
- 如果指定了INCLUDING RELOPTIONS，则源表的存储参数（即源表的WITH子句）也将拷贝至新表。默认情况下，不拷贝源表的存储参数。
- INCLUDING ALL包含了INCLUDING DEFAULTS、INCLUDING CONSTRAINTS、INCLUDING INDEXES、INCLUDING STORAGE、INCLUDING COMMENTS、INCLUDING PARTITION和INCLUDING RELOPTIONS的内容。
WITH ( storage_parameter [= value] [, ... ] )
这个子句为表或索引指定一个可选的存储参数。参数的详细描述如下所示：
- FILLFACTOR
  一个表的填充因子（fillfactor）是一个介于10和100之间的百分数。100（完全填充）是默认值。如果指定了较小的填充因子，INSERT操作仅按照填充因子指定的百分率填充表页。每个页上的剩余空间将用于在该页上更新行，这就使得UPDATE有机会在同一页上放置同一条记录的新版本，这比把新版本放置在其他页上更有效。对于一个从不更新的表将填充因子设为100是最佳选择，但是对于频繁更新的表，选择较小的填充因子则更加合适。该参数对于列存表没有意义。
  
  取值范围：10~100
- ORIENTATION
  决定了表的数据的存储方式。
  
  取值范围：
  - COLUMN：表的数据将以列式存储。
  - ROW（缺省值）：表的数据将以行式存储。
    
    orientation不支持修改。
- STORAGE_TYPE
  指定存储引擎类型，该参数设置成功后就不再支持修改。
  
  取值范围：
  - USTORE，表示表支持Inplace-Update存储引擎。特别需要注意，使用USTORE表，必须要开启track_counts和track_activities参数，否则会引起空间膨胀。
  - ASTORE，表示表支持Append-Only存储引擎。
  默认值：
  
  不指定表时，默认是Append-Only存储。
- COMPRESSION
  - 列存表的有效值为LOW/MIDDLE/HIGH/YES/NO，压缩级别依次升高，默认值为LOW。
  - 行存表不支持压缩。
- MAX_BATCHROW
  指定了在数据加载过程中一个存储单元可以容纳记录的最大数目。该参数只对列存表有效。
  
  取值范围：10000~60000，默认60000。
- PARTIAL_CLUSTER_ROWS
  指定了在数据加载过程中进行将局部聚簇存储的记录数目。该参数只对列存表有效。
  
  取值范围：大于等于MAX_BATCHROW，建议取值为MAX_BATCHROW的整数倍数。
- DELTAROW_THRESHOLD
  预留参数。该参数只对列存表有效。
  
  取值范围：0～9999
- segment
  使用段页式的方式存储。本参数仅支持行存表。不支持列存表、临时表、unlog表。不支持ustore存储引擎。
  
  取值范围：on/off
  
  默认值：off
COMPRESS / NOCOMPRESS
创建一个新表时，需要在创建表语句中指定关键字COMPRESS，这样，当对该表进行批量插入时就会触发压缩特性。该特性会在页范围内扫描所有元组数据，生成字典、压缩元组数据并进行存储。指定关键字NOCOMPRESS则不对表进行压缩。行存表不支持压缩。

缺省值为NOCOMPRESS，即不对元组数据进行压缩。
TABLESPACE tablespace_name
指定新表将要在tablespace_name表空间内创建。如果没有声明，将使用默认表空间。
PARTITION BY RANGE(partition_key)
创建范围分区。partition_key为分区键的名称。

（1）对于从句是VALUES LESS THAN的语法格式：

对于从句是VALUE LESS THAN的语法格式，范围分区策略的分区键最多支持4列。

该情形下，分区键支持的数据类型为：SMALLINT、INTEGER、BIGINT、DECIMAL、NUMERIC、REAL、DOUBLE PRECISION、CHARACTER VARYING(n)、VARCHAR(n)、CHARACTER(n)、CHAR(n)、CHARACTER、CHAR、TEXT、NVARCHAR、NVARCHAR2、NAME、TIMESTAMP[(p)] [WITHOUT TIME ZONE]、TIMESTAMP[(p)] [WITH TIME ZONE]、DATE。

（2）对于从句是START END的语法格式：

对于从句是START END的语法格式，范围分区策略的分区键仅支持1列。

该情形下，分区键支持的数据类型为：SMALLINT、INTEGER、BIGINT、DECIMAL、NUMERIC、REAL、DOUBLE PRECISION、TIMESTAMP[(p)] [WITHOUT TIME ZONE]、TIMESTAMP[(p)] [WITH TIME ZONE]、DATE。

（3）对于指定了INTERVAL子句的语法格式：

对于指定了INTERVAL子句的语法格式，范围分区策略的分区键仅支持1列。

该情形下，分区键支持的数据类型为：TIMESTAMP[(p)] [WITHOUT TIME ZONE]、TIMESTAMP[(p)] [WITH TIME ZONE]、DATE。
PARTITION partition_name VALUES LESS THAN ( { partition_value | MAXVALUE } )
指定各分区的信息。partition_name为范围分区的名称。partition_value为范围分区的上边界，取值依赖于partition_key的类型。MAXVALUE表示分区的上边界，它通常用于设置最后一个范围分区的上边界。
- 每个分区都需要指定一个上边界。
- 分区上边界的类型应当和分区键的类型一致。
- 分区列表是按照分区上边界升序排列的，值较小的分区位于值较大的分区之前。
PARTITION partition_name {START (partition_value) END (partition_value) EVERY (interval_value)} | {START (partition_value) END (partition_value|MAXVALUE)} | {START(partition_value)} | {END (partition_value | MAXVALUE)}
指定各分区的信息，各参数意义如下：
- partition_name：范围分区的名称或名称前缀，除以下情形外（假定其中的partition_name是p1），均为分区的名称。
  - 若该定义是START+END+EVERY从句，则语义上定义的分区的名称依次为p1_1, p1_2, ...。例如对于定义“PARTITION p1 START(1) END(4) EVERY(1)”，则生成的分区是：[1, 2), [2, 3) 和 [3, 4)，名称依次为p1_1, p1_2和p1_3，即此处的p1是名称前缀。
  - 若该定义是第一个分区定义，且该定义有START值，则范围（MINVALUE, START）将自动作为第一个实际分区，其名称为p1_0，然后该定义语义描述的分区名称依次为p1_1, p1_2, ...。例如对于完整定义“PARTITION p1 START(1), PARTITION p2 START(2)”，则生成的分区是：(MINVALUE, 1), [1, 2) 和 [2, MAXVALUE)，其名称依次为p1_0, p1_1和p2，即此处p1是名称前缀，p2是分区名称。这里MINVALUE表示最小值。
- partition_value：范围分区的端点值（起始或终点），取值依赖于partition_key的类型，不可是MAXVALUE。
- interval_value：对[START，END) 表示的范围进行切分，interval_value是指定切分后每个分区的宽度，不可是MAXVALUE；如果（END-START）值不能整除以EVERY值，则仅最后一个分区的宽度小于EVERY值。
- MAXVALUE：表示最大值，它通常用于设置最后一个范围分区的上边界。
1. 在创建分区表若第一个分区定义含START值，则范围（MINVALUE，START）将自动作为实际的第一个分区。
2. START END语法需要遵循以下限制：
  - 每个partition_start_end_item中的START值（如果有的话，下同）必须小于其END值；
  - 相邻的两个partition_start_end_item，第一个的END值必须等于第二个的START值；
  - 每个partition_start_end_item中的EVERY值必须是正向递增的，且必须小于（END-START）值；
  - 每个分区包含起始值，不包含终点值，即形如：[起始值，终点值)，起始值是MINVALUE时则不包含；
  - 一个partition_start_end_item创建的每个分区所属的TABLESPACE一样；
  - partition_name作为分区名称前缀时，其长度不要超过57字节，超过时自动截断；
  - 在创建、修改分区表时请注意分区表的分区总数不可超过最大限制（1048575）；
3. 在创建分区表时START END与LESS THAN语法不可混合使用。
4. 即使创建分区表时使用START END语法，备份（gs_dump）出的SQL语句也是VALUES LESS THAN语法格式。
INTERVAL ('interval_expr') [ STORE IN (tablespace_name [, ... ] ) ]
间隔分区定义信息。
- interval_expr：自动创建分区的间隔，例如：1 day、1 month。
- STORE IN (tablespace_name [, ... ] )：指定存放自动创建分区的表空间列表，如果有指定，则自动创建的分区从表空间列表中循环选择使用，否则使用分区表默认的表空间。
列存表不支持间隔分区。
PARTITION BY LIST(partition_key)
创建列表分区。partition_key为分区键的名称。
- 对于partition_key，列表分区策略的分区键仅支持1列。
- 对于从句是VALUES (list_values)的语法格式，list_values中包含了对应分区存在的键值，每个分区的键值数量不超过64个。
分区键支持的数据类型为：INT1、INT2、INT4、INT8、NUMERIC、VARCHAR(n)、CHAR、BPCHAR、NVARCHAR、NVARCHAR2、TIMESTAMP[(p)] [WITHOUT TIME ZONE]、TIMESTAMP[(p)] [WITH TIME ZONE]、DATE。分区个数不能超过1048575个。
PARTITION BY HASH(partition_key)
创建哈希分区。partition_key为分区键的名称。

对于partition_key，哈希分区策略的分区键仅支持1列。

分区键支持的数据类型为：INT1、INT2、INT4、INT8、NUMERIC、VARCHAR(n)、CHAR、BPCHAR、TEXT、NVARCHAR、NVARCHAR2、TIMESTAMP[(p)] [WITHOUT TIME ZONE]、TIMESTAMP[(p)] [WITH TIME ZONE]、DATE。分区个数不能超过1048575个。
{ ENABLE | DISABLE } ROW MOVEMENT
行迁移开关。

如果进行UPDATE操作时，更新了元组在分区键上的值，造成了该元组所在分区发生变化，就会根据该开关给出报错信息，或者进行元组在分区间的转移。

取值范围：
- ENABLE（缺省值）：行迁移开关打开。
- DISABLE：行迁移开关关闭。
在打开行迁移开关情况下，并发update、delete操作可能会报错，原因如下：

目前 GaussDB astore引擎下，update和delete操作对于旧数据都是标记为已删除。在打开行迁移开关情况下，如果更新分区键时，导致了跨分区更新，目前GaussDB astore引擎下，会把旧分区中旧数据标记为已删除，在新分区中新增加一条数据，无法通过旧数据找到新数据。

在update和update并发、delete和delete并发、update和delete并发三个并发场景下，如果并发操作同一行数据时，数据跨分区和非跨分区结果有不同的行为。
1. 对于数据非跨分区结果，第一个操作执行完后，第二个操作不会报错。
  如果第一个操作是update，第二个操作能成功找到最新的数据，之后对新数据操作。
  
  如果第一个操作是delete，第二个操作看到当前数据已经被删除而且找不到最新数据，就终止操作。
2. 对于数据跨分区结果，第一个操作执行完后，第二个操作会报错。
  如果第一个操作是update，由于新数据在新分区中，第二个操作不能成功找到最新的数据，就无法操作，之后会报错。
  
  如果第一个操作是delete，第二个操作看到当前数据已经被删除而且找不到最新数据，但无法判断删除旧数据的操作是update还是delete。如果是update，报错处理。如果是delete，终止操作。为了保持数据的正确性，只能报错处理。
如果是update和update并发，update和delete并发场景，需要串行执行才能解决问题，如果是delete和delete并发，关闭行迁移开关可以解决问题。