数据治理中心 DATAARTS STUDIO-配置HDFS目的端参数

时间:2024-08-26 19:34:06

配置HDFS目的端参数

表1 HDFS作为目的端时的作业参数

参数类型

参数名

说明

取值样例

基本参数

写入目录

写入数据到HDFS服务器的目录。

/user/cdm/output

文件格式

传输数据时使用的格式。其中 CS V和JSON仅支持迁移到数据表场景,二进制格式适用于文件迁移场景。

CSV格式

换行符处理方式

指定在写入文本文件表的数据包含换行符,特指(\n|\r|\r\n)的情况下处理换行符的策略。

  • 删除
  • 不处理
  • 替换为其他字符串

删除

换行符替换字符串

当换行符处理方式选择为替换时,指定替换的字符串。

-

高级属性

写入到临时文件

文件格式为二进制格式时显示该参数。

将二进制文件先写入到临时文件。临时文件以".tmp"作为后缀。

换行符

文件格式为CSV格式时显示该参数。

文件中的换行符,默认自动识别"\n"、"\r"或"\r\n"。手动配置特殊字符,如空格回车需使用URL编码后的值。或通过编辑作业json方式配置,无需URL编码。

\n

字段分隔符

文件格式为CSV格式时显示该参数。

文件中的字段分隔符。配置特殊字符需先url编码。

,

作业成功标识文件

标识文件名。

当作业成功时,在写入目录下生成标识文件。不输入文件名时不启用该功能。

finish.txt

使用包围符

文件格式为CSV格式时显示该参数。

使用包围符来括住字符串值。包围符内的字段分隔符被视为字符串值的一部分,目前只支持"作为包围符。:

自定义目录层次

支持用户自定义文件的目录层次。

例如:【表名】/【年】/【月】/【日】/【数据文件名】. csv

目录层次

自定义目录层次选择是时显示该参数。

指定文件的目录层次,支持时间宏(时间格式为yyyy/MM/dd)。源端为关系型数据库数据源时,目录层次为源端表名+自定义目录,其他场景下为自定义目录。

${dateformat(yyyy/MM/dd, -1, DAY)}

文件名前缀

文件格式为CSV格式时显示该参数。

设置文件名前缀。

文件名格式:prefix-jobname-timestamp-index。

data

压缩格式

文件格式为CSV格式时显示该参数。

选择写入文件的压缩格式。

  • NONE
  • DEFLATE
  • GZIP
  • BZIP2
  • SNAPPY

SNAPPY

加密方式

文件格式为二进制格式时显示该参数。

对上传的数据进行加密。

  • AES-256-GCM

数据加密 密钥

文件格式为二进制格式且选择加密方式时显示该参数。

数据加密密钥(Data Encryption Key),AES-256-GCM密钥由长度64的十六进制数组成。

DD0AE00DFECD78BF051BCFDA25BD4E320DB0A7AC75A1F3FC3D3C56A457DCDC1B

初始化向量

文件格式为二进制格式且选择加密方式时显示该参数。

设置初始化向量,由长度32的十六进制数组成。

5C91687BA886EDCD12ACBC3FF19A3C3F

support.huaweicloud.com/usermanual-dataartsstudio/zh-cn_topic_0000001991728925.html