检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Flink流式写Hudi表建议 使用SparkSQL统一建表。 推荐使用Spark异步任务对Hudi表进行Compaction。 父主题: Flink流式写Hudi表规范
r中,所以同key数据的合并需要依赖ClickHouse的ReplacingMergeTree引擎。 父主题: ClickHouse表开发规范
”。 单击“实例”,勾选所有FlinkServer实例,选择“更多 > 重启实例”,根据界面提示重启实例。 父主题: HBase数据表开发规范
Doris数据导入规范 该章节主要介绍Doris数据导入规范。 Doris数据导入建议 禁止高频执行update、delete或truncate操作,推荐几分钟执行一次,使用delete必须设置分区或主键列条件。 禁止使用INSERT INTO tbl1 VALUES (“1”)
Spark表数据维护规范 禁止通过Alter命令修改表关键属性信息:type/primaryKey/preCombineField/hoodie.index.type 错误示例,执行如下语句修改表关键属性: alter table dsrTable set tblproperties('type'='xx');
Bucket调优示例 创建Bucket索引表调优 Hudi表初始化 实时任务接入 离线Compaction配置 父主题: Hudi应用开发规范
Impala开发规范 Impala开发规则 Impala开发建议 Impala开发示例 父主题: Impala开发指南(安全模式)
Impala开发规范 Impala开发规则 Impala开发建议 Impala开发示例 父主题: Impala开发指南(普通模式)
enableToString true false --conf spark.speculation false false 父主题: Spark on Hudi开发规范
Hudi数据表Compaction规范 mor表更新数据以行存log的形式写入,log读取时需要按主键合并,并且是行存的,导致log读取效率比parquet低很多。为了解决log读取的性能问题,Hudi通过compaction将log压缩成parquet文件,大幅提升读取性能。 规则
Doris UDF开发规范 本章节主要介绍开发Doris UDF程序时应遵循的规则和建议。 Doris UDF开发规则 UDF中方法调用必须是线程安全的。 UDF实现中禁止读取外部大文件到内存中,如果文件过大可能会导致内存耗尽。 需避免大量递归调用,否则容易造成栈溢出或oom。
Doris数据变更规范 该章节主要介绍Doris数据变更时需遵循的规则和建议。 Doris数据变更规则 应用程序不能直接使用delete或者update语句变更数据,可以使用CDC的upsert方式来实现。 不建议业务高峰期或在表上频繁的进行加减字段,建议在业务前期规划建表时预留
Hudi表索引设计规范 规则 禁止修改表索引类型。 Hudi表的索引会决定数据存储方式,随意修改索引类型会导致表中已有的存量数据与新增数据之间出现数据重复和数据准确性问题。常见的索引类型如下: 布隆索引:Spark引擎独有索引,采用bloomfiter机制,将布隆索引内容写入到Parquet文件的footer中。
Flink作业参数规则 Flink作业参数配置规范 Flink作业参数配置规范如下表所示。 表1 Flink作业参数配置规范 参数名称 是否必填 参数描述 建议值 -c 必填 指定主类名。 根据实际情况而定 -ynm 必填 Flink Yarn作业名称。 根据实际情况而定 execution
Flink流式读Hudi表规则 Flink流式读Hudi表参数规范如下所示。 表1 Flink流式读Hudi表参数规范 参数名称 是否必填 参数描述 示例 Connector 必填 读取表类型。 hudi Path 必填 表存储的路径。 根据实际情况填写 table.type 必填
Doris数据查询规范 该章节主要介绍Doris数据查询时需遵循的规则和建议。 Doris数据查询规则 在数据查询业务代码中建议查询失败时进行重试,再次下发查询。 in中常量枚举值超过1000后,必须修改为子查询。 禁止使用REST API(Statement Execution
其余失败。 并发场景下,需要设置cleaner policy为Lazy,因此无法自动清理垃圾文件。 父主题: Spark读写Hudi开发规范
Doris连接运行规范 连接Doris和运行Doris任务时需遵循的规范如下: 推荐使用ELB连接Doris,避免当连接的FE故障时,无法对外提供服务。 当Doris单实例或硬件故障时,新提交的任务能运行成功,但不能确保故障时正在运行的任务能执行成功。因此,需要用户连接Doris
Flink流式写Hudi表规则 Flink流式写Hudi表参数规范 Flink流式写Hudi表参数规范如下表所示。 表1 Flink流式写Hudi表参数规范 参数名称 是否必填 参数描述 建议值 Connector 必填 读取表类型。 hudi Path 必填 表存储的路径。 根据实际填写
Source并行度与Topic分区数保持一致 当Kafka Source并行度大于Topic分区数时,多余的并行度不能消费数据。 父主题: Kafka表开发规范