数据湖探索 DLI-执行SQL作业时产生数据倾斜怎么办？:Group By数据倾斜解决方案

时间：2025-02-12 15:00:38

数据湖探索 DLI

Group By数据倾斜解决方案

取部分数据执行select count(*) as sum,Key from tbl group by Key order by sum desc查询具体是哪些key引起的数据倾斜。

然后对于倾斜Key单独做处理，加盐让其先将他分为多个task分别统计，最后再对分开统计结果进行结合统计。

例如：如下SQL示例，假设已知倾斜key为'Key01',导致单个task处理大量数据，做如下处理：

SELECT  a.Key,  SUM(a.sum) AS CntFROM  (    SELECT      Key,      count(*) AS sum    FROM      tbl    GROUP BY      Key,      CASE        WHEN KEY = 'Key01' THEN floor(random () * 200)        ELSE 0      END  ) aGROUP BY  a.Key;

上一篇：数据湖探索 DLI-如何合并小文件

下一篇：数据湖探索 DLI-如何合并小文件

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

数据湖探索 DLI-执行SQL作业时产生数据倾斜怎么办？:Group By数据倾斜解决方案

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

数据湖探索 DLI-执行SQL作业时产生数据倾斜怎么办？:Group By数据倾斜解决方案

数据湖探索 DLI-执行SQL作业时产生数据倾斜怎么办？:Group By数据倾斜解决方案

Group By数据倾斜解决方案

7*24

备案

专业服务

退订

建议反馈

售前咨询热线