华为云首页用户手册

云数据迁移 CDM-Hudi目的端的作业执行Spark SQL写入Hudi失败怎么办？:解决方案

云数据迁移 CDM-Hudi目的端的作业执行Spark SQL写入Hudi失败怎么办？:解决方案

时间：2024-12-05 16:57:02

云数据迁移 CDM

解决方案

在 DataArts Studio 或者Hue或者spark-beeline上执行drop table将表从metastore中删除，然后作业配置 “不存在时创建”重跑作业。或者删除后自己执行建表语句重建一个Hudi表。

对于MOR表来说，删表需要把ro与rt表也同时删除。否则会出现schema残留的问题。
删除空值后重跑作业。
具体办法：
- 在作业管理界面选择“更多-失败重试”，尝试重新执行Spark SQL。
- 通过DataArts Studio执行Spark SQL，设置执行参数或者调整SQL。
  调整Spark切片大小：
  
  set spark.sql.files.maxPartitionBytes=xxM；默认值为128M，可适当调整为64M或者32M。
  
  如果数据切分不均匀，可以修改SQL配置DISTRIBUTE BY rand()，增加一个shuffle过程，打散数据（需要占用较多资源，资源不多时慎用）。
  
  insert into xx select * from xxx DISTRIBUTE BY rand();
- 使用DataArts Studio API方式提交Spark SQL，调大executor内存。
排查是否有其他连接在同时写hudi表，如果有，将连接停止，然后 CDM 作业失败重试。

上一篇：云数据迁移 CDM-Hudi目的端的作业执行过程中，由于源端连接闪断、超时或主动终止连接导致作业执行失败怎么处理？:解决方案

下一篇：云数据迁移 CDM-Hudi目的端的作业执行卡Running，数据写入行数一直显示为0如何处理？:原因分析

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

云数据迁移 CDM-Hudi目的端的作业执行Spark SQL写入Hudi失败怎么办？:解决方案

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题