ClickHouse数据库开发-华为云

MAPREDUCE服务 MRS-ClickHouse数据查询:数据查询建议

数据查询建议建议查询指定分区通过指定分区字段会减少底层数据库扫描的文件数量，提升查询性能，实际经验：700个分区的千列大表，需要查询一个分区中有7000万数据，其他699个分区中无数据，虽然只有一个分区有数据，其他分区无数据，但是查询指定分区为百毫秒级性能，没有指定分区查询性能为1~2秒左右，性能相差20倍。慎用final查询在查询语句的最后跟上final，通常是对于ReplacingMergeTree引擎，数据不能完全去重情况下，有些开发人员习惯写final关键字进行实时合并去重操作（merge-on-read），保证查询数据无重复数据。可以通过argMax函数或其他方式规避此问题。

MAPREDUCE服务 MRS ClickHouse数据库开发

MAPREDUCE服务 MRS-ClickHouse数据查询:数据修改

数据修改建议慎用delete、update的mutation操作标准SQL的更新、删除操作是同步的，即客户端要等服务端反回执行结果（通常是int值）；而ClickHouse的update、delete是通过异步方式实现的，当执行update语句时，服务端立即返回执行成功还是失败结果，但是实际上此时数据还没有修改完成，而是在后台排队等着进行真正的修改，可能会出现操作覆盖的情况，也无法保证操作的原子性。业务场景要求有update、delete等操作，建议使用ReplacingMergeTree、CollapsingMergeTree、VersionedCollapsingMergeTree引擎，使用方式参见：https://clickhouse.tech/docs/zh/engines/table-engines/mergetree-family/collapsingmergetree/。建议少或不增删数据列业务提前规划列个数，如果将来有更多列要使用，可以规划预留多列，避免在生产系统跑业务过程中进行大量的alter table modify列操作，导致不可以预知的性能、数据一致性问题。对于批量数据清理，建议根据分区来操作： ALTER TABLE table_name DROP PARTITION partition_name; 禁止修改索引列对索引列的修改会导致现有索引失效，触发重建索引，期间查询数据不准确。如果业务场景必须修改索引列，推荐用ReplacingMergeTree引擎建表，使用数据写入+去重引擎代替数据更新场景：https://clickhouse.tech/docs/zh/engines/table-engines/mergetree-family/collapsingmergetree/。

MAPREDUCE服务 MRS ClickHouse数据库开发

MAPREDUCE服务 MRS-ClickHouse数据库应用开发:规则

规则大批量少频次的插入。内容要求：ClickHouse的每次数据插入都会生成一到多个part文件，如果data part过多则会导致merge压力变大，甚至出现服务异常影响数据插入。建议一次插入10万行，每秒不超过1次插入。一次只插入一个分区内的数据。内容要求：如果数据属于不同的分区，则每次插入，不同分区的数据会独立生成part文件，导致part总数量膨胀。甚至写入报错“Merges are processing significantly slower than inserts”。一批次写入的数据，对应的分区数太多。ClickHouse建表之后insert batch时，会对不同的分区创建一个目录。如果一个batch里面的数据对应了过多的分区，那么一次insert就会生成较多的分区目录，后台merge线程处理速度跟不上分区增加的速度，社区规格是每秒不超过一个数据目录。具体的操作：确认一个batch的数据对应了多少个分区，insert的时候，尽量保证一个batch包含的分区数是1。慎用delete、update操作。内容要求：建议使用CollapsingMergeTree、VersionedCollapsingMergeTree引擎或根据分区批量清理。 ClickHouse需要写本地表。内容要求：连接balancer写入报错Request Entity Too Large。这是由于Nginx对http请求体大小有限制，而一次写入的数据量超过了这个限制。规避：修改Nginx配置项client_max_body_size为一个较大的值。解决：写本地表，不要通过balancer写入数据。

MAPREDUCE服务 MRS ClickHouse数据库开发

MAPREDUCE服务 MRS-ClickHouse数据库应用开发:操作步骤

操作步骤先获取clickhouse-example样例代码工程。代码获取地址：https://github.com/huaweicloud/huaweicloud-mrs-example/blob/mrs-3.1.2/src/clickhouse-examples/。在样例工程“conf”目录下有一个“clickhouse-example.proerties”配置文件，其中各项的配置的作用如下所示： #连接节点或Balancer的ip列表，ip之间用逗号隔开 loadBalancerIPList= #是否需要开启ssl,如果取值为true，则loadBalancerHttpsPort必填 sslUsed=true #端口号 loadBalancerHttpPort= loadBalancerHttpsPort= #ClickHouse安全模式开关，安全模式集群时该参数固定为true。 CLICKHOUSE_SECURITY_ENABLED=true #连接的用户名 user= #连接的用户的密码 password= #集群名称 clusterName= #数据库名称 databaseName= #表名称 tableName= #一个批次写入的条数 batchRows=10000 #写入数据的总批次 batchNum=10 #ip:port。安全模式下https端口，普通模式下http端口 clickhouse_dataSource_ip_list= #ip:tcp port native_dataSource_ip_list=ip:port,ip:port,ip:port 在Demo.java有三种连接JDBC的样例：节点的JDBC连接、banlancer的JDBC连接和tcp端口的banlancer的JDBC连接。 Demo提供了createDatabase、createTable、insertData和queryData的样例。

MAPREDUCE服务 MRS ClickHouse数据库开发

云服务器内容精选

ClickHouse数据库开发

7*24

备案

专业服务

退订

建议反馈

售前咨询热线