CarbonData数据分析-华为云

MAPREDUCE服务 MRS-新建CarbonData表:使用自定义列创建表

使用自定义列创建表可通过指定各列及其数据类型来创建表。命令示例： CREATE TABLE IF NOT EXISTS productdb.productSalesTable ( productNumber Int, productName String, storeCity String, storeProvince String, productCategory String, productBatch String, saleQuantity Int, revenue Int) STORED AS carbondata TBLPROPERTIES ( 'table_blocksize'='128'); 上述命令所创建的表的详细信息如下：表1 表信息定义参数描述 productSalesTable 待创建的表的名称。该表用于加载数据进行分析。表名由字母、数字、下划线组成。 productdb 数据库名称。该数据库将与其中的表保持逻辑连接以便于识别和管理。数据库名称由字母、数字、下划线组成。 productName storeCity storeProvince procuctCategory productBatch saleQuantity revenue 表中的列，代表执行分析所需的业务实体。列名（字段名）由字母、数字、下划线组成。 table_blocksize CarbonData表使用的数据文件的block大小，默认值为1024，最小值为1，最大值为2048，单位为MB。如果“table_blocksize”值太小，数据加载时，生成过多的小数据文件，可能会影响HDFS的使用性能。如果“table_blocksize”值太大，数据查询时，索引匹配的block数据量较大，某些block会包含较多的blocklet，导致读取并发度不高，从而降低查询性能。一般情况下，建议根据数据量级别来选择大小。例如：GB级别用256，TB级别用512，PB级别用1024。所有Integer类型度量均以BigInt类型进行处理与显示。 CarbonData遵循严格解析，因此任何不可解析的数据都会被保存为null。例如，在BigInt列中加载double值（3.14），将会保存为null。在Create Table中使用的Short和Long数据类型在DESCRIBE命令中分别显示为Smallint和Bigint。可以使用DESCRIBE格式化命令查看表数据大小和表索引大小。

MAPREDUCE服务 MRS CarbonData数据分析

MAPREDUCE服务 MRS-合并CarbonData表Segments:操作描述

操作描述有Minor合并、Major合并和Custom合并三种类型。 Minor合并：在Minor合并中，用户可指定合并数据加载的数量。如果设置了参数“carbon.enable.auto.load.merge”，每次数据加载都可触发Minor合并。如果任意segment均可合并，那么合并将于数据加载时并行进行。 Minor合并有两个级别。 Level 1：合并未合并的segment。 Level 2：合并已合并的segment，以形成更大的segment。 Major合并：在Major合并中，许多segment可以合并为一个大的segment。用户将指定合并尺寸，将对未达到该尺寸的segment进行合并。Major合并通常在非高峰时段进行。 Custom合并：在Custom合并中，用户可以指定几个segment的id合并为一个大的segment。所有指定的segment的id必须存在并且有效，否则合并将会失败。Custom合并通常在非高峰时段进行。具体的命令操作，请参考ALTER TABLE COMPACTION。表1 合并参数参数默认值应用类型描述 carbon.enable.auto.load.merge false Minor 数据加载时启用合并。 “true”：数据加载时自动触发segment合并。 “false”：数据加载时不触发segment合并。 carbon.compaction.level.threshold 4,3 Minor 对于Minor合并，该属性参数决定合并segment的数量。例如，如果该参数设置为“2,3”，在Level 1，每2个segment触发一次Minor合并。在Level2，每3个Level 1合并的segment将被再次合并为新的segment。合并策略根据实际的数据大小和可用资源决定。有效值为0-100。 carbon.major.compaction.size 1024mb Major 通过配置该参数可配置Major合并。低于该阈值的segment之和将被合并。例如，如果该阈值是1024MB，且有5个大小依次为300MB，400MB，500MB，200MB，100MB的segment用于Major合并，那么只有相加的总数小于阈值的segment会被合并，也就是300+400+200+100 = 1000MB的segment会被合并，而500MB的segment将会被跳过。 carbon.numberof.preserve.segments 0 Minor/Major 如果用户希望从被合并的segment中保留一定数量的segment，可通过该属性参数进行设置。例如，“carbon.numberof.preserve.segments”=“2”，那么最新的2个segment将不会包含在合并中。默认不保留任何segment。 carbon.allowed.compaction.days 0 Minor/Major 合并将合并在指定的配置天数中加载的segment。例如，如果配置为“2”，那么只有在2天的时间框架中被加载的segment可以被合并。在2天以外被加载的segment将不被合并。默认为禁用。 carbon.number.of.cores.while.compacting 2 Minor/Major 在合并过程中写入数据时所用的核数。配置的核数越大合并性能越好。如果CPU资源充足可以增加此值。 carbon.merge.index.in.segment true SEGMENT_INDEX 如果设置为true，则一个segment中所有Carbon索引文件（.carbonindex）将合并为单个Carbon索引合并文件（.carbonindexmerge）。这增强了首次查询性能。

MAPREDUCE服务 MRS CarbonData数据分析

MAPREDUCE服务 MRS-合并CarbonData表Segments:操作场景

操作场景频繁的数据获取导致在存储目录中产生许多零碎的CarbonData文件。由于数据排序只在每次加载时进行，所以，索引也只在每次加载时执行。这意味着，对于每次加载都会产生一个索引，随着数据加载数量的增加，索引的数量也随之增加。由于每个索引只在一次加载时工作，索引的性能被降低。CarbonData提供加载压缩。压缩过程通过合并排序各segment中的数据，将多个segment合并为一个大的segment。

MAPREDUCE服务 MRS CarbonData数据分析

MAPREDUCE服务 MRS-新建CarbonData Table:使用自定义列创建表

使用自定义列创建表可通过指定各列及其数据类型来创建表。命令示例： CREATE TABLE IF NOT EXISTS productdb.productSalesTable ( productNumber Int, productName String, storeCity String, storeProvince String, productCategory String, productBatch String, saleQuantity Int, revenue Int) STORED AS carbondata TBLPROPERTIES ( 'table_blocksize'='128'); 上述命令所创建的表的详细信息如下：表1 表信息定义参数描述 productSalesTable 待创建的表的名称。该表用于加载数据进行分析。表名由字母、数字、下划线组成。 productdb 数据库名称。该数据库将与其中的表保持逻辑连接以便于识别和管理。数据库名称由字母、数字、下划线组成。 productName storeCity storeProvince procuctCategory productBatch saleQuantity revenue 表中的列，代表执行分析所需的业务实体。列名（字段名）由字母、数字、下划线组成。 table_blocksize CarbonData表使用的数据文件的block大小，默认值为1024，最小值为1，最大值为2048，单位为MB。如果“table_blocksize”值太小，数据加载时，生成过多的小数据文件，可能会影响HDFS的使用性能。如果“table_blocksize”值太大，数据查询时，索引匹配的block数据量较大，某些block会包含较多的blocklet，导致读取并发度不高，从而降低查询性能。一般情况下，建议根据数据量级别来选择大小。例如：GB级别用256，TB级别用512，PB级别用1024。所有Integer类型度量均以BigInt类型进行处理与显示。 CarbonData遵循严格解析，因此任何不可解析的数据都会被保存为null。例如，在BigInt列中加载double值（3.14），将会保存为null。在Create Table中使用的Short和Long数据类型在DESCRIBE命令中分别显示为Smallint和Bigint。可以使用DESCRIBE格式化命令查看表数据大小和表索引大小。

MAPREDUCE服务 MRS CarbonData数据分析

MAPREDUCE服务 MRS-修改CarbonData Table:SET和UNSET

SET和UNSET 当使用set命令时，所有新set的属性将会覆盖已存在的旧的属性。 SORT SCOPE SET SORT SCOPE命令示例： ALTER TABLE tablename SET TBLPROPERTIES('SORT_SCOPE'='no_sort') 当UNSET SORT SCOPE后，会使用默认值NO_SORT。 UNSET SORT SCOPE命令示例： ALTER TABLE tablename UNSET TBLPROPERTIES('SORT_SCOPE') SORT COLUMNS SET SORT COLUMNS命令示例： ALTER TABLE tablename SET TBLPROPERTIES('SORT_COLUMNS'='column1') 在执行该命令后，新的导入会使用新的SORT_COLUMNS配置值。用户可以根据查询的情况来调整SORT_COLUMNS，但是不会直接影响旧的数据。所以对历史的segments的查询性能不会受到影响，因为历史的segments不是按照新的SORT_COLUMNS。不支持UNSET命令，但是可以使用set SORT_COLUMNS等于空字符串来代替UNSET命令。 ALTER TABLE tablename SET TBLPROPERTIES('SORT_COLUMNS'='') 后续版本会加强自定义合并来对旧的segment重新排序。流式表不支持修改SORT_COLUMNS。如果inverted index的列从SORT_COLUMNS里面移除了，该列不会再创建inverted index。但是旧的INVERTED_INDEX配置值不会变化。

MAPREDUCE服务 MRS CarbonData数据分析

MAPREDUCE服务 MRS-删除CarbonData Table:操作步骤

操作步骤运行如下命令删除表。命令： DROP TABLE [IF EXISTS] [db_name.]table_name; 一旦执行该命令，将会从系统中删除表。命令中的“db_name”为可选参数。如果没有指定“db_name”，那么将会删除当前数据库下名为“table_name”的表。示例： DROP TABLE productdb.productSalesTable; 通过上述命令，删除数据库“productdb”下的表“productSalesTable”。

MAPREDUCE服务 MRS CarbonData数据分析

云服务器内容精选

CarbonData数据分析

7*24

备案

专业服务

退订

建议反馈

售前咨询热线