云数据库GaussDB 规划存储模型
GaussDB支持行列混合存储。行、列存储模型各有优劣,建议根据实际情况选择。
行存储是指将表按行存储到硬盘分区上,列存储是指将表按列存储到硬盘分区上。默认情况下,创建的表为行存储。行存储和列存储的差异请参见下图。
图中,左上为行存表,右上为行存表在硬盘上的存储方式。左下为列存表,右下为列存表在硬盘上的存储方式。
云数据库GaussDB 行、列存储有如下优缺点:
存储模型
|
优点
|
缺点
|
---|---|---|
行存 |
数据被保存在一起。INSERT/UPDATE容易。 |
选择(Selection)时即使只涉及某几列,所有数据也都会被读取。 |
列存 |
查询时只有涉及到的列会被读取。 投影(Projection)很高效。 任何列都能作为索引。 |
选择完成时,被选择的列要重新组装。 INSERT/UPDATE比较麻烦。 |
云数据库GaussDB 行、列存储类型对应的适用场景
一般情况下,如果表的字段比较多(大宽表),查询中涉及到的列不多的情况下,适合列存储。如果表的字段个数比较少,查询大部分字段,那么选择行存储比较好。
索引方式
|
描述
|
---|---|
唯一索引 |
可用于约束索引属性值的唯一性,或者属性组合值的唯一性。如果一个表声明了唯一约束或者主键,则GaussDB自动在组成主键或唯一约束的字段上创建唯一索引(可能是多字段索引),以实现这些约束。目前,GaussDB只有B-Tree及UBTree可以创建唯一索引。 |
多字段索引 |
一个索引可以定义在表中的多个属性上。目前,GaussDB中的B-Tree支持多字段索引,且最多可在32个字段上创建索引。 |
云数据库GaussDB 行存表
默认创建表的类型。数据按行进行存储,即一行数据是连续存储。适用于对数据需要经常更新的场景。
云数据库GaussDB 列存表
数据按列进行存储,即一列所有数据是连续存储的。单列查询IO小,比行存表占用更少的存储空间。适合数据批量插入、更新较少和以查询为主统计分析类的场景。列存表不适合点查询。
云数据库GaussDB 行存表和列存表的选择
特点
|
方案
|
---|---|
更新频繁程度 |
数据如果频繁更新,选择行存表。 |
插入频繁程度 |
频繁的少量插入,选择行存表。一次插入大批量数据,选择列存表。 |
表的列数 |
表的列数很多,选择列存表。 |
查询的列数 |
如果每次查询时,只涉及了表的少数(<50%总列数)几个列,选择列存表。 |
压缩率 |
列存表比行存表压缩率高。但高压缩率会消耗更多的CPU资源。 |
专题内容推荐
活动对象:华为云电销客户及渠道伙伴客户可参与消费满送活动,其他客户参与前请咨询客户经理
活动时间: 2020年8月12日-2020年9月11日
活动期间,华为云用户通过活动页面购买云服务,或使用上云礼包优惠券在华为云官网新购云服务,累计新购实付付费金额达到一定额度,可兑换相应的实物礼品。活动优惠券可在本活动页面中“上云礼包”等方式获取,在华为云官网直接购买(未使用年中云钜惠活动优惠券)或参与其他活动的订单付费金额不计入统计范围内;