检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Flink流式写Hudi表规则 Flink流式写Hudi表参数规范 Flink流式写Hudi表参数规范如下表所示。 表1 Flink流式写Hudi表参数规范 参数名称 是否必填 参数描述 建议值 Connector 必填 读取表类型。 hudi Path 必填 表存储的路径。 根据实际填写
目前changelog的MOR表,仅支持Flink引擎进行compaction处理,不支持Spark引擎。 父主题: Flink任务开发规范
tasks。 如果有限流则调大限流参数。 调大上游compaction、archive、clean参数。 父主题: Flink流式读Hudi表规范
CDC对接上游数据库写ClickHouse的场景也受限,上游数据库如果进行了物理操作,那么ClickHouse中数据无法进行同步删除。 父主题: ClickHouse表开发规范
从而保证维度数据可以长期保存在状态后端中。而且基于流表作为维度表可以基于Flink回撤机制实现数据的一致性。 父主题: Flink任务开发规范
Doris作为Sink表时需开启CheckPoint Flink作业在触发CheckPoint时才会往Doris表中写数据。 父主题: Doris数据表开发规范
HBase算子并行度提升写入性能 在HBase sink表with中添加如下属性: 'sink.parallelism'='xx' 父主题: HBase数据表开发规范
Hudi数据表Clean规范 Clean也是Hudi表的维护操作之一,该操作对于MOR表和COW表都需要执行。Clean操作的目的是为了清理旧版本文件(Hudi不再使用的数据文件),这不但可以节省Hudi表List过程的时间,也可以缓解存储压力。 规则 Hudi表必须执行Clean。
Hudi表分区设计规范 规则 分区键不可以被更新: Hudi具有主键唯一性机制,但在分区表的场景下通常只能保证分区内主键唯一,因此如果分区键的值发生变更后,会导致相同主键的行记录出现多条的情况。在以日期分区的场景,可采用数据的创建时间为分区字段,切记不要采用数据更新时间做分区。
流流关联中不能加入批Source算子 流流关联中不能加入批Source算子,根据业务情况将该Source算子调整为维表算子。 父主题: Flink SQL逻辑开发规范
props.put("max.partition.fetch.bytes","5252880"); 父主题: Kafka应用开发规范
Hudi数据表Archive规范 Archive(归档)是为了减轻Hudi读写元数据的压力,所有的元数据都存放在这个路径:Hudi表根目录/.hoodie目录,如果.hoodie目录下的文件数量超过10000就会发现Hudi表有非常明显的读写时延。 规则 Hudi表必须执行Archive。
insert into sink-B select id,org_id from source-B; 父主题: Flink SQL逻辑开发规范
3 以上配置代表excutor-num*executor-cores=6 >=分区数*分桶数=6。 父主题: Spark on Hudi开发规范
on HBase表执行INSERT OVERWRITE,会将相同rowkey的行进行覆盖,不相关的数据不会被覆盖。 父主题: Hive应用开发规范
应常驻内存 Admin的实例应尽量遵循 “用时创建,用完关闭”的原则。不应该长时间缓存同一个Admin实例。 父主题: HBase应用开发规范
时间序列可以被看作产生时序数据的传感器所在的完整路径,在IoTDB中所有的时间序列必须以root开始、以传感器作为结尾。 父主题: IoTDB应用开发规范
flink-conf.yaml): state.backend.local-recovery: true 父主题: Flink性能调优开发规范
图,如果发现是中间计算Busy就需要通过调整整个作业并行度来调整这类算子的并行度,常见的如join算子。 父主题: Flink性能调优开发规范
时若客户端异常、断电,则数据丢失。对于有高可靠要求的数据,应该写完后,调用hflush将数据刷新到HDFS侧。 父主题: HDFS应用开发规范