开发指导-华为云

表格存储服务 CLOUDTABLE-开发流程

开发流程本文档主要介绍在CloudTable集群模式下如何调用HBase开源接口进行Java应用程序的开发。开发流程中各阶段的说明如图1和表1所示。图1 应用程序开发流程表1 应用开发的流程说明阶段说明参考文档了解基本概念在开始开发应用前，需要了解HBase的基本概念，了解场景需求，设计表等。 HBase 准备开发环境 HBase应用程序当前推荐使用Java语言进行开发。可使用Eclipse工具。开发环境简介准备运行环境应用程序的运行环境即客户端环境，请根据指导完成客户端的安装和配置。准备Windows运行环境准备工程 CloudTable为用户提供了不同场景下的样例程序，您可以导入样例工程进行程序学习。或者您可以根据指导，新建一个工程。下载样例工程配置并导入工程根据场景开发工程提供了Java语言的样例工程，包含从建表、写入到删除表全流程的样例工程。开发HBase应用编译并运行程序指导用户将开发好的程序编译并提交运行。编译并运行程序安装客户端时编译并运行程序或未安装客户端时编译并运行程序查看程序运行结果程序运行结果会写在用户指定的路径下。用户还可以通过UI查看应用运行情况。在Windows环境中：查看调测结果在Linux环境中：查看调测结果父主题： HBase应用开发指导

表格存储服务 CLOUDTABLE HBase应用开发指导

表格存储服务 CLOUDTABLE-Doris组件使用规范:数据变更类

数据变更类【强制】应用程序不可以直接使用delete后者update语句变更数据，可以使用CDC的upsert方式来实现。低频操作上使用，比如Update几分钟更新一次。如果使用Delete一定带上分区条件。【强制】禁止使用INSERT INTO tbl1 VALUES (“1”), (“a”);这种方式做数据导入，少量少次写可以，多量多频次时要使用Doris提供的StreamLoad、BrokerLoad、SparkLoad或者Flink Connector方式。【建议】执行特殊的长SQL操作时，可以使用SELECT /*+ SET_VAR(query_timeout = xxx*/ from table 类似这样通过Hint方式去设置Session 会话变量，不要设置全局的系统变量。

表格存储服务 CLOUDTABLE Doris应用开发指导

表格存储服务 CLOUDTABLE-Doris组件使用规范:建表规范

建表规范【强制】创建表指定分桶buckets时，每个桶的数据大小为应保持在100M-3G之间，单分区中最大分桶数据不超过5000。【强制】表数据超过5亿条以上必须设置分区分桶策略。【强制】分桶的列不要设置太多，一般情况下1或2个列，同时需要兼顾数据分布均匀和查询吞吐之间的均衡，考虑数据均匀是为了避免某些桶的数据存在倾斜影响数据均衡和查询效率，考虑查询吞吐是为了利用查询SQL的分桶剪裁优化避免全桶扫描提升查询性能，所以优先考虑哪些数据较为均匀且常用于查询条件的列适合做分桶列。【强制】2000kw 以内数据禁止使用动态分区（动态分区会自动创建分区，而小表用户客户关注不到，会创建出大量不使用分区分桶）。【强制】创建表时的副本数必须至少为2，默认是3，禁止使用单副本。【建议】单表物化视图不能超过6个。【建议】对于有大量历史分区数据，但是历史数据比较少，或者不均衡，或者查询概率的情况，使用如下方式将数据放在特殊分区：对于历史数据，如果数据量比较小我们可以创建历史分区（比如年分区，月分区），将所有历史数据放到对应分区里。创建历史分区方式：FROM ("2000-01-01") TO ("2022-01-01") INTERVAL 1 YEAR。【建议】1000w-2亿以内数据为了方便可以不设置分区，直接用分桶策略（不设置其实Doris内部会有个默认分区）。【建议】如果分桶字段存在30%以上的数据倾斜，则禁止使用Hash分桶策略，改使用random分桶策略：Create table ... DISTRIBUTED BY RANDOM BUCKETS 10 ... 【建议】建表时第一个字段一定是最常查询使用的列，默认有前缀索引快速查询能力，选取分区分桶外最长查询且高基数的列，前缀索引36位，如果列超长也不能使用前缀索引能力。【建议】亿级别以上数据，如果有模糊匹配或者等值/in条件，可以使用倒排索引或者是 Bloomfilter。如果是低基数列的正交查询适合使用bitmap索引。【强制】Doris 建表不要指定Merge-On-Write属性，当前有很多开源问题，不推荐。如使用了该属性，CloudTable服务不承诺SLA。

表格存储服务 CLOUDTABLE Doris应用开发指导

表格存储服务 CLOUDTABLE-Doris组件使用规范:数据查询规范

数据查询规范【强制】鉴于外表存在不稳定性，目前doris暂不支持外表查询。【强制】in中条件超过2000后，必须修改为子查询。【强制】禁止使用REST API（Statement Execution Action）执行大量SQL查询，该接口仅仅用于集群维护。【建议】一次insert into select数据超过1亿条后，建议拆分为多个insert into select语句执行，分成多个批次来执行。如果非要这样执行不可，必须在集群资源相对空闲的时候可以通过调整并发度来加快的数据导入速度。例如：set parallel_fragment_exec_instance_num = 8 建议数值是单BE节点上CPU内核的一半。【强制】query查询条件返回结果在5w条以上，使用JDBC Catalog或者OUTFILE方式导出。不然大量FE上数据传输将占用FE资源，影响集群稳定性。如果是交互式查询，建议使用分页方式（offset limit），分页要加Order by。如果是数据导出提供给第三方使用，建议使用 outfile或者export 方式。【强制】2个以上大于3亿的表JOIN使用Colocation Join。【强制】亿级别大表禁止使用select * 查询，查询时需要明确要查询的字段。使用SQL Block方式禁止这种操作。如果是高并发点查，建议开启行存（2.x版本）。使用PreparedStatement查询。【强制】亿级以上表数据查询必须带分区分桶条件。【建议】尽量不要使用OR作为JOIN条件。【建议】大量数据排序（5亿以上）后返回部分数据，建议先减少数据范围再执行排序，否则大量排序会影响性能。例如：将from table order by datatime desc limit 10优化为from table where datatime='2023-10-20' order by datatime desc limit 10。

表格存储服务 CLOUDTABLE Doris应用开发指导

表格存储服务 CLOUDTABLE-ClickHouse表引擎概述:Distributed表引擎

Distributed表引擎 Distributed表引擎本身不存储任何数据，而是作为数据分片的透明代理，能够自动路由数据到集群中的各个节点，分布式表需要和其他本地数据表一起协同工作。分布式表会将接收到的读写任务分发到各个本地表，而实际上数据的存储在各个节点的本地表中。图2 Distributed Distributed表引擎创建模板： ENGINE = Distributed(cluster_name, database_name, table_name, [sharding_key]) 表6 Distributed表参数说明参数说明 cluster_name 集群名称，在对分布式表执行读写的过程中，使用集群的配置信息查找对应的ClickHouse实例节点。 database_name 数据库名称。 table_name 数据库下对应的本地表名称，用于将分布式表映射到本地表上。 sharding_key 分片键（可选参数），分布式表会按照这个规则，将数据分发到各个本地表中。使用示例。先创建一个表名为demo的ReplicatedMergeTree本地表。 CREATE TABLE default.demo ON CLUSTER default_cluster( `EventDate` DateTime, `id` UInt64)ENGINE = ReplicatedMergeTree('/clickhouse/tables/{shard}/default/demo', '{replica}') PARTITION BY toYYYYMM(EventDate) ORDER BY id; 基于本地表demo创建表名为demo_all的Distributed表。 CREATE TABLE default.demo_all ON CLUSTER default_cluster( `EventDate` DateTime, `id` UInt64)ENGINE = Distributed(default_cluster, default, demo, rand()); 分布式表创建规则。创建Distributed表时需加上on cluster cluster_name，这样建表语句在某一个ClickHouse实例上执行一次即可分发到集群中所有实例上执行。分布式表通常以本地表加“_all”命名。它与本地表形成一对多的映射关系，之后可以通过分布式表代理操作多张本地表。分布式表的表结构尽量和本地表的结构一致。如果不一致，在建表时不会报错，但在查询或者插入时可能会抛出异常。