分布列选择的原则有哪些
选择分布列的时候,一般遵循下面三个原则:
1.尽量选择离散值比较多的列,保证数据均匀分布。分布均匀是为了避免木桶效应,各个DN对等执行。
2.在满足第一条原则的情况下,不要选择存在常量过滤的列。
3.满足前两条原则的情况下,尽量选择关联字段或聚合字段做分布列,这种方式是为了避免数据节点之间数据重分布,降低IO的开销从而提升关联操作和聚合操作的性能。