检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ClickHouse数据库设计 ClickHouse DataBase设计 ClickHouse表引擎适用场景说明 ClickHouse宽表设计 ClickHouse物化视图设计 ClickHouse逻辑视图设计 父主题: ClickHouse数据库设计规范
大小写的支持不同,统一采用小写字母。 建议 Spark批处理场景,对写入时延要求不高的场景,采用COW表。 COW表模型中,写入数据存在写放大问题,因此写入速度较慢;但COW具有非常好的读取性能力。而且批量计算对写入时延不是很敏感,因此可以采用COW表。 Hudi表的写任务要开启Hive元数据同步功能。
创建高查询性能的CarbonData表 操作场景 本章节根据超过50个测试用例总结得出建议,帮助用户创建拥有更高查询性能的CarbonData表。 表1 CarbonData表中的列 Column name Data type Cardinality Attribution msname
Hudi表索引设计规范 规则 禁止修改表索引类型。 Hudi表的索引会决定数据存储方式,随意修改索引类型会导致表中已有的存量数据与新增数据之间出现数据重复和数据准确性问题。常见的索引类型如下: 布隆索引:Spark引擎独有索引,采用bloomfiter机制,将布隆索引内容写入到Parquet文件的footer中。
ClickHouse容量规划设计 为了能够更好的发挥ClickHouse分布式查询能力,在集群规划阶段需要合理设计集群数据分布存储。 当前ClickHouse能力为单机磁盘容量达到80%后会上报告警信息,磁盘容量达90%后集群会处于只读状态。 出现磁盘告警信息后需要考虑是否是容量
ClickHouse数据分布设计 Shard和副本概念介绍 图1 ClickHouse集群架构图 从横向来看ClickHouse数据库集群,所有数据都会平均分布到多个shard分片中进行保存,数据平均分布后,保证了查询的高度并行性,以提升数据的查询性能。 从纵向来看,每个shar
Hudi表分区设计规范 规则 分区键不可以被更新: Hudi具有主键唯一性机制,但在分区表的场景下通常只能保证分区内主键唯一,因此如果分区键的值发生变更后,会导致相同主键的行记录出现多条的情况。在以日期分区的场景,可采用数据的创建时间为分区字段,切记不要采用数据更新时间做分区。
Spark DAG设计规范说明 操作场景 合理的设计程序结构,可以优化执行效率。在程序编写过程中要尽量减少shuffle操作,合并窄依赖操作。 操作步骤 以“同行车判断”例子讲解DAG设计的思路。 数据格式:通过收费站时间、车牌号、收费站编号...... 逻辑:以下两种情况下判定这两辆车是同行车:
ReplicatedVersionedCollapsingMergeTree ReplicatedGraphiteMergeTree 父主题: ClickHouse数据库设计
Spark DAG设计规范说明 操作场景 合理的设计程序结构,可以优化执行效率。在程序编写过程中要尽量减少shuffle操作,合并窄依赖操作。 操作步骤 以“同行车判断”例子讲解DAG设计的思路。 数据格式:通过收费站时间、车牌号、收费站编号...... 逻辑:以下两种情况下判定这两辆车是同行车:
ClickHouse数据库设计规范 ClickHouse设计规范概述 ClickHouse集群规划 ClickHouse数据库设计 ClickHouse数据库开发 ClickHouse数据库调优 ClickHouse数据库运维
Hudi数据表设计规范 Hudi表模型设计规范 Hudi表索引设计规范 Hudi表分区设计规范 父主题: Hudi应用开发规范
企业快速构建海量数据信息处理系统,并通过对海量信息数据实时与非实时的分析挖掘,发现全新价值点和企业商机。 维护策略声明 MRS集群资源归属于用户,MRS提供基于该资源的半托管云服务能力,用户拥有对集群的完全控制权,默认情况下,云服务无权限对客户集群进行操作,集群日常运维管理由用户
ClickHouse集群规划 ClickHouse集群业务规划 ClickHouse数据分布设计 ClickHouse容量规划设计 ClickHouse依赖服务设计 父主题: ClickHouse数据库设计规范
如果集群有混合负载(要求极致性能的点查/范围查询和有大数据量聚合及join查询),建议将不同类型的负载拆分到不同集群;对于集群规划有远远超过100个并发业务系统,也需要设计将业务分摊到不同的集群。 父主题: ClickHouse集群规划
ClickHouse数据库运维 ClickHouse日志管理 ClickHouse日志管理规则 ClickHouse日志详细信息 父主题: ClickHouse数据库设计规范
ClickHouse数据库开发 ClickHouse数据入库 ClickHouse数据查询 ClickHouse数据库应用开发 父主题: ClickHouse数据库设计规范
Kafka表开发规则 Kafka作为sink表时必须指定“topic”配置项 【示例】向Kafka的“test_sink”主题插入一条消息: CREATE TABLE KafkaSink( `user_id` VARCHAR, `user_name` VARCHAR,
ClickHouse需要写本地表。 内容要求:连接balancer写入报错Request Entity Too Large。这是由于Nginx对http请求体大小有限制,而一次写入的数据量超过了这个限制。 规避:修改Nginx配置项client_max_body_size为一个较大的值。
ClickHouse调优思路 ClickHouse系统调优 ClickHouse SQL调优 ClickHouse参数调优实践 父主题: ClickHouse数据库设计规范