MAPREDUCE服务 MRS-Spark Core数据序列化:操作场景
操作场景
Spark支持两种方式的序列化 :
- Java原生序列化JavaSerializer
- Kryo序列化KryoSerializer
序列化对于Spark应用的性能来说,具有很大的影响。在特定的数据格式的情况下,KryoSerializer的性能可以达到JavaSerializer的10倍以上,而对于一些Int之类的基本类型数据,性能的提升就几乎可以忽略。
KryoSerializer依赖Twitter的Chill库来实现,相对于JavaSerializer,主要的问题在于不是所有的Java Serializable对象都能支持,兼容性不好,所以需要手动注册类。
序列化功能用在两个地方:序列化任务和序列化数据。Spark任务序列化只支持JavaSerializer,数据序列化支持JavaSerializer和KryoSerializer。
- GaussDB Core_gaussdb内核_高斯数据库Core_华为云
- MapReduce服务_什么是HetuEngine_如何使用HetuEngine
- MapReduce服务_什么是MapReduce服务_什么是HBase
- MapReduce服务_什么是Kafka_如何使用Kafka
- MapReduce服务_什么是HDFS_HDFS特性
- MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用
- MapReduce服务_什么是Hue_如何使用Hue
- MapReduce服务_什么是Hive_如何使用Hive
- MapReduce服务_什么是Yarn_如何使用Yarn
- MapReduce服务_什么是Flink_如何使用Flink