数据治理中心 DATAARTS STUDIO-约束与限制:Hive数据源约束

时间:2024-06-18 20:26:36

Hive数据源约束

  • Hive中使用Parquet格式存储时间戳数据时,时间戳的精度为纳秒级别(即精确到毫微秒),即2023-03-27 00:00:00.000。当源端数据精度大于纳秒级别时,字段映射时会对数据进行截取。例如源端数据为2023-03-27 00:00:00.12345,目的端数据会被截取为2023-03-27 00:00:00.123。
  • Hive作为迁移的目的时,如果存储格式为Textfile,在Hive创建表的语句中需要显式指定分隔符。例如:
    CREATE TABLE csv_tbl(
    smallint_value smallint,
    tinyint_value tinyint,
    int_value int,
    bigint_value bigint,
    float_value float,
    double_value double,
    decimal_value decimal(9, 7),
    timestmamp_value timestamp,
    date_value date,
    varchar_value varchar(100),
    string_value string,
    char_value char(20),
    boolean_value boolean,
    binary_value binary,
    varchar_null varchar(100),
    string_null string,
    char_null char(20),
    int_null int
    )
    ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.Open CS VSerde'
    WITH SERDEPROPERTIES (
    "separatorChar" = "\t",
    "quoteChar"     = "'",
    "escapeChar"    = "\\"
    )
    STORED AS TEXTFILE;
support.huaweicloud.com/usermanual-dataartsstudio/dataartsstudio_01_0015.html