MAPREDUCE服务 MRS-使用Hive CBO功能优化多表查询效率:操作场景

时间:2024-11-06 14:23:08

操作场景

在Hive中执行多表Join时,Hive支持开启CBO(Cost Based Optimization),系统会自动根据表的统计信息,例如数据量、文件数等,选出合适计划提高多表Join的效率。Hive需要先收集表的统计信息后才能使CBO正确的优化。

  • CBO优化器会基于统计信息和查询条件,尽可能地使Join顺序达到更优。但是也可能存在特殊情况导致Join顺序调整不准确。例如数据存在倾斜,以及查询条件值在表中不存在等场景,可能调整出非优化的Join顺序。
  • 开启列统计信息自动收集时,需要在Reduce侧做聚合统计。对于没有Reduce阶段的insert任务,将会多出Reduce阶段,用于收集统计信息。
support.huaweicloud.com/cmpntguide-lts-mrs/mrs_01_0983.html