数据湖探索 DLI-使用Hive语法创建OBS表:注意事项

时间:2024-07-01 21:07:49

注意事项

  • 创建表时会统计大小。
  • 添加数据时不会修改大小。
  • 如需查看表大小可以通过OBS查看。
  • CTAS建表语句不能指定表的属性。
  • 关于分区表的使用说明:
    • 创建分区表时,PARTITONED BY中指定分区列必须是不在表中的列,且需要指定数据类型。分区列支持string, boolean, tinyint, smallint, short, int, bigint, long, decimal, float, double, date, timestamp等hive开源支持的类型。
    • 支持指定多个分区字段,分区字段只需在PARTITIONED BY关键字后指定,不能像普通字段一样在表名后指定,否则将出错。
    • 单表分区数最多允许200000个。
    • Spark 3.3及以上版本支持使用Hive语法的CTAS语句创建分区表。
  • 关于创建表时设置多字符的分隔符:
    • 只有指定ROW FORMAT SERDE为org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe时,字段分隔符才支持设置为多字符。
    • 只有Hive OBS表支持在建表时指定多字符的分隔符,Hive DLI 表不支持在建表时指定多字符的分隔符。
    • 指定了多字符分隔的表不支持INSERT、IMPORT等写数语句。如需添加数据,请将数据文件直接放到表对应的OBS路径下即可,例如示例7:创建表并设置多字符的分割符中,将数据文件放到obs://bucketName/filePath下。
support.huaweicloud.com/sqlref-spark-dli/dli_08_0077.html