数据湖探索 DLI-Spark2.4.x与Spark3.3.x版本在SQL队列的差异对比:Spark3.3.x版本中空字符串无引号。
Spark3.3.x版本中空字符串无引号。
- 说明:
默认情况下,空值在 CS V数据源中,2.4.5版本空字符串为"",升级到spark3.3.1后空字符串无引号。
- Spark2.4.x:空值在CSV数据源中为""。
- Spark3.3.x:空值在CSV数据源中无引号。
如需在Spark3.3.x版本中恢复Spark2.4.x的格式,可以通过设置spark.sql.legacy.nullValueWrittenAsQuotedEmptyStringCsv为 true来实现。
- 升级引擎版本后是否对作业有影响:
有影响,导出orc文件中null值存储形式不同。
- 示例代码:
准备数据:
create table test_null(id int,name string) stored as parquet; insert into test_null values(1,null);
导出csv查看文件内容
- Spark2.4.5
1,""
- Spark3.3.1
1,
- Spark2.4.5
- 云数据库RDS for MySQL版本升级_MySQL版本_升级数据库版本
- 云数据库 RDS for MySQL版本升级_MySQL如何进行版本升级_华为云
- 分布式缓存Redis版本差异_分布式缓存Redis有哪些版本_分布式缓存-华为云
- GaussDB版本查询_华为云GaussDB的作用_高斯数据库版本查询_华为云
- MySQL数据库_查看MySQL数据库版本_免费MySQL数据库
- GaussDB查版本命令_GaussDB命令参考_高斯数据库查版本命令-华为云
- 分布式消息服务Kafka版与分布式消息服务RocketMQ版的区别_Kafka与RocketMQ对比_Kafka与RocketMQ差异
- 什么是Spark SQL作业_数据湖探索DLISpark SQL作业
- GaussDB(for MySQL)重点特性介绍_升级Proxy内核版本_重启Proxy实例
- kafka是什么_kafka介绍_分布式消息服务Kafka版