审视和修改表定义-华为云

云数据库 GAUSSDB-审视和修改表定义概述

审视和修改表定义概述在分布式框架下，数据分布在各个DN上。一个或者几个DN的数据存在一块物理存储设备上，好的表定义至少需要达到以下几个目标：表数据均匀分布在各个DN上，以防止单个DN对应的存储设备空间不足造成集群有效容量下降。选择合适分布列，可以避免数据分布倾斜。表Scan压力均匀分散在各个DN上，以避免单DN的Scan压力过大，形成Scan的单节点瓶颈。分布列不选择基表上等值filter中的列可以实现该点。减少扫描数据量。通过分区的剪枝机制可以实现该点。尽量减少随机I/O。通过聚簇可以实现该点。尽量避免数据shuffle，减小网络压力。通过选择join-condition或者group by列为分布列可以最大程度的实现这点。从上述描述来看表定义中最重要的一点是分布列的选择。创建表定义一般遵循图1所示流程。表定义在数据库设计阶段创建，在SQL调优过程中进行审视和修改。图1 表定义流程父主题：审视和修改表定义

云数据库 GAUSSDB 审视和修改表定义

云数据库 GAUSSDB-选择分布方式

选择分布方式复制表（Replication）方式将表中的全量数据在集群的每一个DN实例上保留一份。主要适用于记录集较小的表。这种存储方式的优点是每个DN上都有该表的全量数据，在join操作中可以避免数据重分布操作，从而减小网络开销，同时减少了plan segment(每个plan segment都会起对应的线程)。缺点是每个DN都保留了表的完整数据，造成数据的冗余。一般情况下只有数据量较小的维度表才会定义为Replication表。哈希（Hash）表将表中某一个或几个字段进行hash运算后，生成对应的hash值，根据DN实例与哈希值的映射关系获得该元组的目标存储位置。对于Hash分布表，在读/写数据时可以利用各个节点的I/O资源，大大提升表的读/写速度。一般情况下大表定义为Hash表。范围（Range）和列表（List）分布是由用户自定义的分布策略，根据分布列的取值落入满足一定范围或者具体值的对应目标DN，这两种分布方式便于用户灵活地进行数据管理，但对用户本身的数据抽象能力有一定的要求。如表1所示。表1 策略及适用场景策略描述适用场景 Hash 表数据通过hash方式散列到集群中的所有DN实例上。数据量较大的事实表。 Replication 集群中每一个DN实例上都有一份全量表数据。小表、维度表。 Range 表数据对指定列按照范围进行映射，分布到对应DN。用户需要自定义分布规则的场景。 List 表数据对指定列按照具体值进行映射，分布到对应DN。用户需要自定义分布规则的场景。如图1所示，复制表如图中的表T1，哈希表如图中的表T2。图1 复制表和哈希表在对复制表进行数据插入、修改、删除等操作时，如果用户使用声明为可下推（shippable或者immutable）的函数对不可下推的成分进行封装，则可能会导致复制表不同DN数据不一致。使用带有窗口函数、rownum、limit子句、用户自定义函数等结果不稳定的语句对复制表进行数据插入或修改，可能会导致不同节点数据不完全相同。父主题：审视和修改表定义

云数据库 GAUSSDB 审视和修改表定义

云数据库 GAUSSDB-选择数据类型

选择数据类型高效数据类型，主要包括以下三方面：尽量使用执行效率比较高的数据类型一般来说整型数据运算(包括“=”、“＞”、“＜”、“≧”、“≦”、“≠”等常规的比较运算，以及group by)的效率比字符串、浮点数要高。尽量使用短字段的数据类型长度较短的数据类型不仅可以减小数据文件的大小，提升I/O性能，同时也可以减小相关计算时的内存消耗，提升计算性能。比如对于整型数据，如果可以用smallint就尽量不用int，如果可以用int就尽量不用bigint。使用一致的数据类型表关联列尽量使用相同的数据类型。如果表关联列数据类型不同，数据库必须动态地转化为相同的数据类型进行比较，这种转换会带来一定的性能开销。父主题：审视和修改表定义

云数据库 GAUSSDB 审视和修改表定义

云数据库 GAUSSDB-使用分区表

使用分区表分区表是把逻辑上的一张表根据某种方案分成几张物理块进行存储。这张逻辑上的表称之为分区表，物理块称之为分区。分区表是一张逻辑表，不存储数据，数据实际是存储在分区上的。分区表和普通表相比具有以下优点：改善查询性能：对分区对象的查询可以仅搜索自己关心的分区，提高检索效率。增强可用性：如果分区表的某个分区出现故障，表在其他分区的数据仍然可用。方便维护：如果分区表的某个分区出现故障，需要修复数据，只修复该分区即可。 GaussDB 支持的分区表为一级分区表和二级分区表，其中一级分区表包括范围分区表、间隔分区表、列表分区表、哈希分区表四种，二级分区表包括范围分区、列表分区、哈希分区两两组合的九种。范围分区表：将数据基于范围映射到每一个分区。这个范围是由创建分区表时指定的分区键决定的。分区键经常采用日期，例如将销售数据按照月份进行分区。间隔分区表：是一种特殊的范围分区表，相比范围分区表，新增间隔值定义，当插入记录找不到匹配的分区时，可以根据间隔值自动创建分区。列表分区表：将数据中包含的键值分别存储在不同的分区中，依次将数据映射到每一个分区，分区中包含的键值由创建分区表时指定。哈希分区表：将数据根据内部哈希算法依次映射到每一个分区中，包含的分区个数由创建分区表时指定。二级分区表：由范围分区、列表分区、哈希分区任意组合得到的分区表，其一级分区和二级分区均可以使用前面三种定义方式。父主题：审视和修改表定义

云数据库 GAUSSDB 审视和修改表定义

云数据库 GAUSSDB-选择分布列

选择分布列 Hash分布表的分布列选取至关重要，需要满足以下原则：列值应比较离散，以便数据能够均匀分布到各个DN。例如，考虑选择表的主键为分布列，如在人员信息表中选择身份证号码为分布列。在满足第一条原则的情况下尽量不要选取存在常量filter的列。例如，表dwcjk相关的部分查询中出现dwcjk的列zqdh存在常量的约束(例如zqdh=‘000001’)，那么尽量不用zqdh做分布列。在满足前两条原则的情况下，考虑选择查询中的连接条件为分布列，以便Join任务能够下推到DN中执行，且减少DN之间的通信数据量。对于Hash分表策略，如果分布列选择不当，可能导致数据倾斜，查询时出现部分DN的I/O短板，从而影响整体查询性能。因此在采用Hash分表策略之后需对表的数据进行数据倾斜性检查，以确保数据在各个DN上是均匀分布的。可以使用以下SQL检查数据倾斜性： 1 2 3 4 5 select xc_node_id, count(1) from tablename group by xc_node_id order by xc_node_id desc; 其中xc_node_id对应DN，一般来说，不同DN的数据量相差5%以上即可视为倾斜，如果相差10%以上就必须要调整分布列。 GaussDB支持多分布列特性，可以更好地满足数据分布的均匀性要求。 Range/List分布表的分布列由用户根据实际需要进行选择。除了需要选择合适的分布列，还需要注意分布规则对数据分布的影响。父主题：审视和修改表定义

云数据库 GAUSSDB 审视和修改表定义

云数据库 GAUSSDB-选择分布方式

选择分布方式复制表（Replication）方式将表中的全量数据在集群的每一个DN实例上保留一份。主要适用于记录集较小的表。这种存储方式的优点是每个DN上都有该表的全量数据，在join操作中可以避免数据重分布操作，从而减小网络开销，同时减少了plan segment(每个plan segment都会起对应的线程)；缺点是每个DN都保留了表的完整数据，造成数据的冗余。一般情况下只有较小的维度表才会定义为Replication表。哈希（Hash）表将表中某一个或几个字段进行hash运算后，生成对应的hash值，根据DN实例与哈希值的映射关系获得该元组的目标存储位置。对于Hash分布表，在读/写数据时可以利用各个节点的I/O资源，大大提升表的读/写速度。一般情况下大表定义为Hash表。范围（Range）和列表（List）分布是由用户自定义的分布策略，根据分布列的取值落入满足一定范围或者具体值的对应目标DN，这两种分布方式便于用户灵活地进行数据管理，但对用户本身的数据抽象能力有一定的要求。策略描述适用场景 Hash 表数据通过hash方式散列到集群中的所有DN实例上。数据量较大的事实表。 Replication 集群中每一个DN实例上都有一份全量表数据。小表、维度表。 Range 表数据对指定列按照范围进行映射，分布到对应DN。用户需要自定义分布规则的场景。 List 表数据对指定列按照具体值进行映射，分布到对应DN。用户需要自定义分布规则的场景。如图1所示，复制表如图中的表T1，哈希表如图中的表T2。图1 复制表和哈希表父主题：审视和修改表定义

云数据库 GAUSSDB 审视和修改表定义

云数据库 GAUSSDB-选择存储模型

选择存储模型进行数据库设计时，表设计上的一些关键项将严重影响后续整库的查询性能。表设计对数据存储也有影响：好的表设计能够减少I/O操作及最小化内存使用，进而提升查询性能。表的存储模型选择是表定义的第一步。客户业务属性是表的存储模型的决定性因素，依据下面表格选择适合当前业务的存储模型。存储模型适用场景行存点查询(返回记录少，基于索引的简单查询)。增删改比较多的场景。父主题：审视和修改表定义

云数据库 GAUSSDB 审视和修改表定义

云数据库 GAUSSDB-使用分区表

使用分区表分区表是把逻辑上的一张表根据某种方案分成几张物理块进行存储。这张逻辑上的表称之为分区表，物理块称之为分区。分区表是一张逻辑表，不存储数据，数据实际是存储在分区上的。分区表和普通表相比具有以下优点：改善查询性能：对分区对象的查询可以仅搜索自己关心的分区，提高检索效率。增强可用性：如果分区表的某个分区出现故障，表在其他分区的数据仍然可用。方便维护：如果分区表的某个分区出现故障，需要修复数据，只修复该分区即可。 GaussDB支持的分区表为范围分区表。范围分区表：将数据基于范围映射到每一个分区。这个范围是由创建分区表时指定的分区键决定的。分区键经常采用日期，例如将销售数据按照月份进行分区。父主题：审视和修改表定义

云数据库 GAUSSDB 审视和修改表定义

云数据库 GAUSSDB-选择数据类型

选择数据类型高效数据类型，主要包括以下三方面：尽量使用执行效率比较高的数据类型一般来说整型数据运算(包括=、＞、＜、≧、≦、≠等常规的比较运算，以及group by)的效率比字符串、浮点数要高。尽量使用短字段的数据类型长度较短的数据类型不仅可以减小数据文件的大小，提升I/O性能；同时也可以减小相关计算时的内存消耗，提升计算性能。比如对于整型数据，如果可以用smallint就尽量不用int，如果可以用int就尽量不用bigint。使用一致的数据类型表关联列尽量使用相同的数据类型。如果表关联列数据类型不同，数据库必须动态地转化为相同的数据类型进行比较，这种转换会带来一定的性能开销。父主题：审视和修改表定义

云数据库 GAUSSDB 审视和修改表定义

云数据库 GAUSSDB-使用分区表

使用分区表分区表是把逻辑上的一张表根据某种方案分成几张物理块进行存储。这张逻辑上的表称之为分区表，物理块称之为分区。分区表是一张逻辑表，不存储数据，数据实际是存储在分区上的。分区表和普通表相比具有以下优点：改善查询性能：对分区对象的查询可以仅搜索自己关心的分区，提高检索效率。增强可用性：如果分区表的某个分区出现故障，表在其他分区的数据仍然可用。方便维护：如果分区表的某个分区出现故障，需要修复数据，只修复该分区即可。 GaussDB支持的分区表为一级分区表和二级分区表，其中一级分区表包括范围分区表、间隔分区表、列表分区表、哈希分区表四种，二级分区表包括范围分区、列表分区、哈希分区两两组合的九种。范围分区表：将数据基于范围映射到每一个分区。这个范围是由创建分区表时指定的分区键决定的。分区键经常采用日期，例如将销售数据按照月份进行分区。间隔分区表：是一种特殊的范围分区表，相比范围分区表，新增间隔值定义，当插入记录找不到匹配的分区时，可以根据间隔值自动创建分区。列表分区表：将数据中包含的键值分别存储在不同的分区中，依次将数据映射到每一个分区，分区中包含的键值由创建分区表时指定。哈希分区表：将数据根据内部哈希算法依次映射到每一个分区中，包含的分区个数由创建分区表时指定。二级分区表：由范围分区、列表分区、哈希分区任意组合得到的分区表，其一级分区和二级分区均可以使用前面三种定义方式。父主题：审视和修改表定义

云数据库 GAUSSDB 审视和修改表定义

云数据库 GAUSSDB-选择分布方式

选择分布方式复制表（Replication）方式将表中的全量数据在集群的每一个DN实例上保留一份。主要适用于记录集较小的表。这种存储方式的优点是每个DN上都有该表的全量数据，在join操作中可以避免数据重分布操作，从而减小网络开销，同时减少了plan segment(每个plan segment都会起对应的线程)。缺点是每个DN都保留了表的完整数据，造成数据的冗余。一般情况下只有数据量较小的维度表才会定义为Replication表。哈希（Hash）表将表中某一个或几个字段进行hash运算后，生成对应的hash值，根据DN实例与哈希值的映射关系获得该元组的目标存储位置。对于Hash分布表，在读/写数据时可以利用各个节点的I/O资源，大大提升表的读/写速度。一般情况下大表定义为Hash表。范围（Range）和列表（List）分布是由用户自定义的分布策略，根据分布列的取值落入满足一定范围或者具体值的对应目标DN，这两种分布方式便于用户灵活地进行数据管理，但对用户本身的数据抽象能力有一定的要求。如表1所示。表1 策略及适用场景策略描述适用场景 Hash 表数据通过hash方式散列到集群中的所有DN实例上。数据量较大的事实表。 Replication 集群中每一个DN实例上都有一份全量表数据。小表、维度表。 Range 表数据对指定列按照范围进行映射，分布到对应DN。用户需要自定义分布规则的场景。 List 表数据对指定列按照具体值进行映射，分布到对应DN。用户需要自定义分布规则的场景。如图1所示，复制表如图中的表T1，哈希表如图中的表T2。图1 复制表和哈希表在对复制表进行数据插入、修改、删除等操作时，如果用户使用声明为可下推（shippable或者immutable）的函数对不可下推的成分进行封装，则可能会导致复制表不同DN数据不一致。使用带有窗口函数、rownum、limit子句、用户自定义函数等结果不稳定的语句对复制表进行数据插入或修改，可能会导致不同节点数据不完全相同。父主题：审视和修改表定义

云数据库 GAUSSDB 审视和修改表定义

云数据库 GAUSSDB-审视和修改表定义概述

审视和修改表定义概述在分布式框架下，数据分布在各个DN上。一个或者几个DN的数据存在一块物理存储设备上，好的表定义至少需要达到以下几个目标：表数据均匀分布在各个DN上，以防止单个DN对应的存储设备空间不足造成集群有效容量下降。选择合适分布列，避免数据分布倾斜可以实现该点。表Scan压力均匀分散在各个DN上，以避免单DN的Scan压力过大，形成Scan的单节点瓶颈。分布列不选择基表上等值filter中的列可以实现该点。减少扫描数据量。通过分区的剪枝机制可以实现该点。尽量减少随机I/O。通过聚簇/局部聚簇可以实现该点。尽量避免数据shuffle，减小网络压力。通过选择join-condition或者group by列为分布列可以最大程度的实现这点。从上述描述来看表定义中最重要的一点是分布列的选择。创建表定义一般遵循图1所示流程。表定义在数据库设计阶段创建，在SQL调优过程中进行审视和修改。图1 表定义流程父主题：审视和修改表定义

云数据库 GAUSSDB 审视和修改表定义

云数据库 GAUSSDB-使用分区表

使用分区表分区表是把逻辑上的一张表根据某种方案分成几张物理块进行存储。这张逻辑上的表称之为分区表，物理块称之为分区。分区表是一张逻辑表，不存储数据，数据实际是存储在分区上的。分区表和普通表相比具有以下优点：改善查询性能：对分区对象的查询可以仅搜索自己关心的分区，提高检索效率。增强可用性：如果分区表的某个分区出现故障，表在其他分区的数据仍然可用。方便维护：如果分区表的某个分区出现故障，需要修复数据，只修复该分区即可。 GaussDB支持的分区表为一级分区表和二级分区表，其中一级分区表包括范围分区表、间隔分区表、列表分区表、哈希分区表四种，二级分区表包括范围分区、列表分区、哈希分区两两组合的九种。范围分区表：将数据基于范围映射到每一个分区。这个范围是由创建分区表时指定的分区键决定的。分区键经常采用日期，例如将销售数据按照月份进行分区。间隔分区表：是一种特殊的范围分区表，相比范围分区表，新增间隔值定义，当插入记录找不到匹配的分区时，可以根据间隔值自动创建分区。列表分区表：将数据中包含的键值分别存储在不同的分区中，依次将数据映射到每一个分区，分区中包含的键值由创建分区表时指定。哈希分区表：将数据根据内部哈希算法依次映射到每一个分区中，包含的分区个数由创建分区表时指定。二级分区表：由范围分区、列表分区、哈希分区任意组合得到的分区表，其一级分区和二级分区均可以使用前面三种定义方式。父主题：审视和修改表定义

云数据库 GAUSSDB 审视和修改表定义

云数据库 GAUSSDB-选择分布列

选择分布列 Hash分布表的分布列选取至关重要，需要满足以下原则：列值应比较离散，以便数据能够均匀分布到各个DN。例如，考虑选择表的主键为分布列，如在人员信息表中选择身份证号码为分布列。在满足第一条原则的情况下尽量不要选取存在常量filter的列。例如，表dwcjk相关的部分查询中出现dwcjk的列zqdh存在常量的约束(例如zqdh=’000001’)，那么就应当尽量不用zqdh做分布列。在满足前两条原则的情况，考虑选择查询中的连接条件为分布列，以便Join任务能够下推到DN中执行，且减少DN之间的通信数据量。对于Hash分表策略，如果分布列选择不当，可能导致数据倾斜，查询时出现部分DN的I/O短板，从而影响整体查询性能。因此在采用Hash分表策略之后需对表的数据进行数据倾斜性检查，以确保数据在各个DN上是均匀分布的。可以使用以下SQL检查数据倾斜性 1 2 3 4 5 select xc_node_id, count(1) from tablename group by xc_node_id order by xc_node_id desc; 其中xc_node_id对应DN，一般来说，不同DN的数据量相差5%以上即可视为倾斜，如果相差10%以上就必须要调整分布列。 GaussDB支持多分布列特性，可以更好地满足数据分布的均匀性要求。父主题：审视和修改表定义

云数据库 GAUSSDB 审视和修改表定义

云数据库 GaussDB-选择存储模型

选择存储模型进行数据库设计时，表设计上的一些关键项将严重影响后续整库的查询性能。表设计对数据存储也有影响：好的表设计能够减少I/O操作及最小化内存使用，进而提升查询性能。表的存储模型选择是表定义的第一步。客户业务属性是表的存储模型的决定性因素，依据下面表格选择适合当前业务的存储模型。存储模型适用场景行存点查询(返回记录少，基于索引的简单查询)。增删改比较多的场景。列存统计分析类查询 (group , join多的场景)。父主题：审视和修改表定义

云数据库 GaussDB 审视和修改表定义

云服务器内容精选

审视和修改表定义

7*24

备案

专业服务

退订

建议反馈

售前咨询热线