检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ClickHouse日志管理规则 日志路径 ClickHouse相关日志的默认存储路径为:“${BIGDATA_LOG_HOME}/clickhouse”。 ClickHouseServer运行相关日志:“/var/log/Bigdata/clickhouse/clickhouseServer/
TTL变更 场景1:TTL周期由小变大方案: 方案1:新建一张TTL时间为最新时间的表结构相同但名不同的表,把原表的数据导入新表,交换表名字; 方案2:业务代码中异步下发CK的修改TTL语句,下发之后业务代码不需要等待执行结果 1)类似在shell中,nohup sh xx.sh
ClickHouse分区设计 合理设置分区键,控制分区数在一千以内,分区字段使用整型。 分区part数与查询性能关系 图1 分区part数与查询性能关系图 分区建议 建议使用toYYYYMMDD(pt_d)作为分区键,pt_d是date类型。 如果业务场景需要做小时分区,使用pt
创建Bucket索引表调优 Bucket索引常用设置参数: Spark: hoodie.index.type=BUCKET hoodie.bucket.index.num.buckets=5 Flink index.type=BUCKET hoodie.bucket.index.num
ClickHouse容量规划设计 为了能够更好的发挥ClickHouse分布式查询能力,在集群规划阶段需要合理设计集群数据分布存储。 当前ClickHouse能力为单机磁盘容量达到80%后会上报告警信息,磁盘容量达90%后集群会处于只读状态。 出现磁盘告警信息后需要考虑是否是容量
询逻辑提前进行加工处理,将处理后的数据写入到一个宽表中,宽表中包含所有要查询的数据字段,以供后续应用完全自助OLAP的高性能查询。 表命名规范 数据库表名称命名规则: 在数据库中,表名命名要求在当前数据库内唯一。 表名要求以字符开始,可以包含字符(a~z,A~Z)、数字(0~9)及下划线(_)。
Flink Jar包冲突报错ClassCastException类型转换异常 问题现象 Flink lib中引入第三方依赖包后,启动作业报错: ClassCastException: X Cannot be cast to X 问题原因 引入的第三方依赖包与Flink中的依赖包有
ClickHouse表字段设计 规则 不允许用字符类型存放时间或日期类数据,尤其是需要对该日期字段进行运算或者比较的时候。 不允许用字符类型存放数值类型的数据,尤其是需要对该数值字段进行运算或者比较的时候。字符串的过滤效率相对于整型或者特定时间类型有下降。 建议 不建议表中存储过
ClickHouse物化视图概述 由于TTL规则不会从原始表中同步到物化视图表,因此源表中带有TTL规则时,物化视图表同样需要配置TTL规则,并且建议与源表保持一致。 表1 普通物化视图与projection对比 物化视图类型 原表数据与物化视图一致性 灵活性 物化视图开发及维护复杂度
ClickHouse本地表设计 规则 单表(分布式表)的记录数不要超过万亿,对于万亿以上表的查询,性能较差,且集群维护难度变大。单表(本地表)不超过百亿。 表的设计都要考虑到数据的生命周期管理,需要进行TTL表属性设置或定期老化清理表分区数据。 单表的字段建议不要超过5000列。
ClickHouse数据查询 数据查询规则 禁止select *查询 只查询需要的字段可以减少磁盘io和网络io,提升查询性能。 使用uniqCombined替代distinct uniqCombined对去重逻辑进行了优化,通过近似去重提升十倍查询性能,如果对查询允许有误差,可
ClickHouse日志管理 日志级别、日志文件大小、日志文件数目的修改设置。 ClickHouse支持日志级别的动态调整。 登录FusionInsight Manager界面,访问“集群 > 服务 > ClickHouse > 配置 > 全部配置 > ClickHouseServer
Flink作业提交时报错端口范围不足 问题现象 Flink作业提交时,没有足够的端口分配给actor system,导致作业启动失败,报错:Could not start actor system on any port in port range 32326-32390。 解决方法
DGC方式如何创建Flink Hive Sql作业 问题现象 使用DGC方式如何创建Flink Hive Sql作业。 解决方法 若通过DGC方式创建提交Flink Hive作业,以读Kafka写Hive作业为例,步骤如下: 提前在Hive客户端中创建Hive表。例如: create
ClickHouse Projection设计 Projection仅在MRS 3.2.0及以上的版本集群中支持。 projection定义 CREATE TABLE test_projection_table( level String, type String
ClickHouse系统调优 通过FusionInsight Manager查看主机上的CPU、内存、I/O和网络资源使用情况,确认这些资源是否已被充分利用,分以下几种情况: 每个节点资源占用都比较均匀 通过观察资源在每个节点都使用比较均匀,说明系统资源使用比较正常,可以先不关注
处理增量数据。 聚合表中,聚合指标定义成聚合类型(AggregateFunction)。 物化视图的指标列与聚合表中对应字段名称一致,命名规范如下: {aggrateFunction}_{columnName}_state 聚合表创建样例: CREATE TABLE counter_daily_agg
ClickHouse表引擎适用场景说明 ClickHouse中最强大的表引擎当属MergeTree(合并树)引擎及该系列其他引擎,根据业务场景选择合适的引擎。 表引擎选择建议 自助报表分析、行为数据分析,在不涉及重复数据聚合的情况下,建议使用ReplicatedMergeTree表引擎。
如何设置开源Flink中的znode存储目录 问题现象 如何将开源Flink中的znode存储目录设置为自定义目录。 解决方法 如设置目录为/flink_base/flink,在flink-conf.yaml配置文件中将“high-availability.zookeeper.path
Flink对接Elasticsearch作业运行一段时间后Checkpoint失败 问题现象 Flink对接Elasticsearch作业,运行一段时间(TGT的有效期一般为24小时)后,写Elasticsearch失败,Checkpoint超时报错。 TGT(Ticket Granting