MAPREDUCE服务 MRS-Hive Group By语句优化:注意事项

时间：2024-06-29 16:25:11

MAPREDUCE服务 MRS

注意事项

Group By数据倾斜

Group By也同样存在数据倾斜的问题，设置hive.groupby.skewindata为true，生成的查询计划会有两个MapReduce Job，第一个Job的Map输出结果会随机的分布到Reduce中，每个Reduce做聚合操作，并输出结果，这样的处理会使相同的Group By Key可能被分发到不同的Reduce中，从而达到负载均衡，第二个Job再根据预处理的结果按照Group By Key分发到Reduce中完成最终的聚合操作。

Count Distinct聚合问题

当使用聚合函数count distinct完成去重计数时，处理值为空的情况会使Reduce产生很严重的数据倾斜，可以将空值单独处理，如果是计算count distinct，可以通过where子句将该值排除掉，并在最后的count distinct结果中加1。如果还有其他计算，可以先将值为空的记录单独处理，再和其他计算结果合并。

上一篇：MAPREDUCE服务 MRS-基于binlog的MySQL数据同步到MRS集群中:安装Maxwell

下一篇：MAPREDUCE服务 MRS-使用Hue提交Oozie HDFS作业:操作步骤