数据湖探索 DLI-使用Hive语法创建OBS表:关键字

时间:2024-07-01 21:07:49

关键字

  • EXTERNAL:指创建OBS表。
  • IF NOT EXISTS:指定该关键字以避免表已经存在时报错。
  • COMMENT:字段或表描述。
  • PARTITIONED BY:指定分区字段。
  • ROW FORMAT:行数据格式。
  • STORED AS:指定所存储的文件格式,当前该关键字只支持指定TEXTFILE, AVRO, ORC, SEQUENCEFILE, RCFILE, PARQUET格式。
  • LOCATION:指定OBS的路径。创建OBS表时必须指定此关键字。
  • TBLPROPERTIES:TBLPROPERTIES子句允许用户给表添加key/value的属性。
    • 开启数据多版本功能,用于表数据的备份与恢复。开启多版本功能后,在进行删除或修改表数据时(insert overwrite或者truncate操作),系统会自动备份历史表数据并保留一定时间,后续您可以对保留周期内的数据进行快速恢复,避免因误操作而丢失数据。多版本功能SQL语法请参考开启或关闭数据多版本多版本备份恢复数据

      创建OBS表时,通过指定TBLPROPERTIES ("dli.multi.version.enable"="true")开启 DLI 数据多版本功能,具体可以参考示例说明。

      表1 TBLPROPERTIES主要参数说明

      key值

      value说明

      dli.multi.version.enable

      • true:开启DLI数据多版本功能。
      • false:关闭DLI数据多版本功能。

      comment

      表描述信息。

      orc.compress

      orc存储格式表的一个属性,用来指定orc存储的压缩方式。支持取值为:

      • ZLIB
      • SNAPPY
      • NONE
      • PARQUET

      auto.purge

      当设置为true时,删除或者覆盖的数据会不经过回收站,直接被删除。

  • AS:使用CTAS创建表。
  • ROW FORMAT SERDE为org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe时,字段分隔符才支持设置为多字符。使用方法参考示例7:创建表并设置多字符的分割符
support.huaweicloud.com/sqlref-spark-dli/dli_08_0077.html