数据湖探索 DLI-执行SQL作业时产生数据倾斜怎么办?:Group By数据倾斜解决方案
Group By数据倾斜解决方案
取部分数据执行select count(*) as sum,Key from tbl group by Key order by sum desc查询具体是哪些key引起的数据倾斜。
然后对于倾斜Key单独做处理,加盐让其先将他分为多个task分别统计,最后再对分开统计结果进行结合统计。
例如:如下SQL示例,假设已知倾斜key为'Key01',导致单个task处理大量数据,做如下处理:
SELECT a.Key, SUM(a.sum) AS Cnt FROM ( SELECT Key, count(*) AS sum FROM tbl GROUP BY Key, CASE WHEN KEY = 'Key01' THEN floor(random () * 200) ELSE 0 END ) a GROUP BY a.Key;
- 什么是Spark SQL作业_数据湖探索DLISpark SQL作业
- GaussDB性能怎么调_华为gaussdb_gaussdb性能_gaussdb学习
- GaussDB性能_Gaussdb数据库性能_高斯数据库性能-华为云
- DWS资源管理_GaussDB(DWS)资源管理作用_DWS资源管控
- 什么是Flink OpenSource SQL_数据湖探索_Flink OpenSource SQL
- 什么是数据湖探索服务_数据湖探索DLI用途与特点
- 如何连接测试服务器数据库_mysql数据库磁盘满了怎么办
- 识别ocr_识别接口api_ocr平台
- mysql数据库免费吗_mysql在线数据库_mysql数据库下载
- mysql数据库怎么下载_mysql查询全部数据_免费数据库mysql