MAPREDUCE服务 MRS-Spark输出:参数说明

时间：2024-11-28 01:44:16

MAPREDUCE服务 MRS

参数说明

表1 算子参数说明
参数	含义	类型	是否必填	默认值
Spark文件存储格式	配置SparkSQL表文件的存储格式（目前支持四种格式： CS V、ORC、RC和PARQUET）。说明： PARQUET格式是一种列式存储格式，PARQUET要求Loader的输出字段名和SparkSQL表中的字段名保持一致。 Hive 1.2.0版本之后，Hive使用字段名称替代字段序号对ORC文件进行解析，因此，Loader的输出字段名和SparkSQL表中的字段名需要保持一致。	enum	是	CSV
Spark文件压缩格式	在下拉菜单中选择SparkSQL表文件的压缩格式，未配置或选择“NONE”表示不压缩数据。	enum	是	NONE
Spark ORC文件版本	通过该字段配置ORC文件的版本（当SparkSQL表文件的存储格式是ORC时）。	enum	是	0.12
输出分隔符	配置分隔符。	string	是	无
输出字段	配置输出信息：位置：配置输出字段的位置。字段名：配置输出字段的字段名。类型：配置字段类型，字段类型为“DATE”或“TIME”或“TIMESTAMP”时，需指定特定时间格式，其他类型指定无效。时间格式如：“yyyyMMdd HH:mm:ss”。十进制格式：配置小数的刻度和精度。长度：配置字段长度，字段值实际长度太长则按配置的长度截取，“类型”为“CHAR”时实际长度不足则空格补齐，“类型”为“VARCHAR”时实际长度不足则不补齐。分区键：配置是否为分区列。可以不指定分区列，也可以指定多个分区列。配置多个列为分区列时，会按照配置列的先后顺序对其进行拼接。	map	是	无