数据湖探索 DLI-导出查询结果:注意事项

时间:2024-07-01 21:07:19

注意事项

  • 通过配置“spark.sql.shuffle.partitions”参数可以设置非 DLI 表在OBS桶中插入的文件个数,同时,为了避免数据倾斜,在INSERT语句后可加上“distribute by rand()”,可以增加处理作业的并发量。例如:
    insert into table table_target select * from table_source distribute by cast(rand() * N as int);
  • 配置项为OPTIONS('DELIMITER'=',')时,可以指定分隔符,默认值为“,”

    对于 CS V数据,支持如下所述分隔符:

    • 制表符tab,例如:'DELIMITER'='\t'。
    • 支持通过unicode编码指定分割符,例如:'DELIMITER'='\u0001'。
    • 单引号('),单引号必须在双引号(" ")内。例如:'DELIMITER'= "'"。
support.huaweicloud.com/sqlreference-dli/dli_08_0205.html