检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
tasks。 如果有限流则调大限流参数。 调大上游compaction、archive、clean参数。 父主题: Flink on Hudi开发规范
'default', 'cluster.name' = 'flink_hive' ); 父主题: FlinkSQL Connector开发规范
Hudi数据表Clean规范 Clean也是Hudi表的维护操作之一,该操作对于MOR表和COW表都需要执行。Clean操作的目的是为了清理旧版本文件(Hudi不再使用的数据文件),这不但可以节省Hudi表List过程的时间,也可以缓解存储压力。 规则 Hudi表必须执行Clean。
Hudi表分区设计规范 规则 分区键不可以被更新: Hudi具有主键唯一性机制,但在分区表的场景下通常只能保证分区内主键唯一,因此如果分区键的值发生变更后,会导致相同主键的行记录出现多条的情况。在以日期分区的场景,可采用数据的创建时间为分区字段,切记不要采用数据更新时间做分区。
表运维 TTL变更 父主题: ClickHouse数据库运维
从而保证维度数据可以长期保存在状态后端中。而且基于流表作为维度表可以基于Flink回撤机制实现数据的一致性。 父主题: Flink任务开发规范
流流关联中不能加入批Source算子 流流关联中不能加入批Source算子,根据业务情况将该Source算子调整为维表算子。 父主题: Flink SQL逻辑开发规范
ClickHouse数据入库规范 规则 写本地表,查询分布式表,提升写入和查询性能,保证写入和查询的数据一致性。 只有在去重诉求的场景下,可以使用分布式表插入,通过sharding key将要去重的数据转发到同一个shard,便于后续去重查询。 外部模块保证数据导入的幂等性。 C
余失败。 并发场景下,需要设置cleaner policy为Lazy,因此无法自动清理垃圾文件。 父主题: Spark on Hudi开发规范
Hudi数据表Archive规范 Archive(归档)是为了减轻Hudi读写元数据的压力,所有的元数据都存放在这个路径:Hudi表根目录/.hoodie目录,如果.hoodie目录下的文件数量超过10000就会发现Hudi表有非常明显的读写时延。 规则 Hudi表必须执行Archive。
= '-1' 'sink.flush-buffer.timeout' = '1000' 父主题: FlinkSQL Connector开发规范
ey数据的合并需要依赖ClickHouse的ReplacingMergeTree引擎。 父主题: FlinkSQL Connector开发规范
insert into sink-B select id,org_id from source-B; 父主题: Flink SQL逻辑开发规范
3 以上配置代表excutor-num*executor-cores=6 >=分区数*分桶数=6。 父主题: Spark on Hudi开发规范
ClickHouse参数调优实践 表1 ClickHouse参数调优汇总 参数名 参数描述 默认值 建议值 是否需要重启生效 max_memory_usage_for_all_queries 单台服务器上所有查询的内存使用量,默认没有限制。建议根据机器的总内存,预留一部分空间,防止内存不够导致服务或者机器异常。
DWS作业,DWS可以作为源表、结果表和维表。 开发FlinkSQL DWS表请参考Flink SQL概述。 父主题: FlinkSQL Connector开发规范
由于Flink作业在DWS中找不到对应表会报错,所以需要提前在DWS中创建好用于接收数据的空表。 父主题: FlinkSQL Connector开发规范
数据的空表。 JDBC作为维表时,需要提前在对应数据库(如MySQL)中创建好维度表。 父主题: FlinkSQL Connector开发规范
单击“实例”,勾选所有FlinkServer实例,选择“更多 > 重启实例”,根据界面提示重启实例。 父主题: FlinkSQL Connector开发规范
s) NUMERIC(p, s) DECIMAL(p, s) DECIMAL(p, s) 父主题: FlinkSQL Connector开发规范