ClickHouse应用开发规范-华为云

MAPREDUCE服务 MRS-ClickHouse应用开发建议:合理设置分区键，控制分区数在一千以内，分区字段使用整型

合理设置分区键，控制分区数在一千以内，分区字段使用整型建议使用toYYYYMMDD(表字段pt_d)作为分区键，表字段pt_d是date类型。如果业务场景需要做小时分区，使用toYYYYMMDD(表字段pt_d)、toYYYYMMDD(表字段pt_h)做联合分区键，其中toYYYYMMDD(表字段pt_h)是整型小时数。如果保存多年数据，建议考虑使用月做分区，例如toYYYYMM(表字段pt_d)。综合考虑数据分区粒度、每个批次提交的数据量、数据的保存周期等因素，合理控制part数量。

MAPREDUCE服务 MRS ClickHouse应用开发规范

MAPREDUCE服务 MRS-ClickHouse应用开发建议:设置合理的part大小

设置合理的part大小 min_bytes_to_rebalance_partition_over_jbod参数表示参与在JBOD卷中磁盘之间自动平衡分发part的最小size，该值不能设置得太小或者太大。若该值设置得太小，小于max_bytes_to_merge_at_max_space_in_pool/1024，那么clickhouse server进程将会启动失败，另外还会引发不必要的part在磁盘间移动。若该值设置得过大，则很难有part达到这个条件，比如：min_bytes_to_rebalance_partition_over_jbod大于max_data_part_size_bytes（卷中的磁盘可以存储的part的最大大小），则没有part能达到自动平衡的条件。

MAPREDUCE服务 MRS ClickHouse应用开发规范

MAPREDUCE服务 MRS-ClickHouse应用开发建议:本地表建表参考

本地表建表参考本地表创建参考： CREATE TABLE mybase_local.mytable ( `did` Int32, `app_id` Int32, `region` Int32, `pt_d` Date ) ENGINE = ReplicatedMergeTree('/clickhouse/tables/{shard}/mybase_local/mytable', '{replica}') PARTITION BY toYYYYMMDD(pt_d) ORDER BY (app_id, region) SETTINGS index_granularity = 8192, use_minimalistic_part_header_in_zookeeper = 1; 使用说明：表引擎选择： ReplicatedMergeTree:支持副本特性的MergeTree引擎，也是最常用的引擎。 ZooKeeper上的表信息注册路径，用于区分集群中的不同配置： /clickhouse/tables/{shard}/{databaseName}/{tableName}：{shard}是分片名称，{databaseName}是数据库名称，{tableName}是复制表名称。 order by 主键字段：查询时最常使用且过滤性最高的字段作为主键。依次按照访问频度从高到低、维度基数从小到大来排。排序字段不宜太多，建议不超过4个，否则merge的压力会较大。排序字段不允许为null，如果存在null值，需要进行数据转换。 partition by 分区字段分区键不允许为null，如果字段中有null值，需要进行数据转换。表级别的参数配置： index_granularity：稀疏索引粒度配置，默认是8192。 use_minimalistic_part_header_in_zookeeper：ZooKeeper中数据存储是否启动新版本的优化存储方式。建表定义可以参考官网链接：https://clickhouse.tech/docs/en/engines/table-engines/mergetree-family/mergetree/。

MAPREDUCE服务 MRS ClickHouse应用开发规范

MAPREDUCE服务 MRS-ClickHouse应用开发建议:基于大宽表进行数据分析，不建议使用大表join大表的操作，对分布式join查询转化成本地表的join查询操作，提升性能

基于大宽表进行数据分析，不建议使用大表join大表的操作，对分布式join查询转化成本地表的join查询操作，提升性能 ClickHouse分布式join的性能较差，建议在模型侧将数据聚合成大宽表再导入ClickHouse。分布式join的查询转成本地表的join查询，不仅省去大量的节点间数据传播，同时本地表参与计算的数据量也会少很多。业务层再基于所有分片本地join的结果进行数据汇总，性能会有数量级的提升。

MAPREDUCE服务 MRS ClickHouse应用开发规范

MAPREDUCE服务 MRS-ClickHouse应用开发建议:分布式表建表参考

分布式表建表参考本地表创建参考： CREATE TABLE mybase.mytable AS mybase_local.mytable ENGINE = Distributed(cluster_3shards_2replicas, mybase_local, mytable, rand()); 使用说明：分布式表名称：mybase.mytable。本地表名称：mybase_local.mytable。通过“AS”关联分布式表和本地表，保证分布式表的字段定义跟本地表一致。分布式表引擎的参数说明： cluster_3shards_2replicas：逻辑集群名称。 mybase_local：本地表所在库名。 mytable：本地表名。 rand()：可选参数，分片键（sharding key），可以是表中一列的原始数据（如did），也可以是函数调用的结果，如随机值rand()。注意该键要尽量保证数据均匀分布，另外一个常用的操作是采用区分度较高的列的哈希值，如intHash64(user_id)。

MAPREDUCE服务 MRS ClickHouse应用开发规范

云服务器内容精选

ClickHouse应用开发规范

7*24

备案

专业服务

退订

建议反馈

售前咨询热线