MAPREDUCE服务 MRS-Spark Core数据序列化:操作场景

时间:2024-06-29 16:25:02

操作场景

Spark支持两种方式的序列化 :

  • Java原生序列化JavaSerializer
  • Kryo序列化KryoSerializer

序列化对于Spark应用的性能来说,具有很大的影响。在特定的数据格式的情况下,KryoSerializer的性能可以达到JavaSerializer的10倍以上,而对于一些Int之类的基本类型数据,性能的提升就几乎可以忽略。

KryoSerializer依赖Twitter的Chill库来实现,相对于JavaSerializer,主要的问题在于不是所有的Java Serializable对象都能支持,兼容性不好,所以需要手动注册类。

序列化功能用在两个地方:序列化任务和序列化数据。Spark任务序列化只支持JavaSerializer,数据序列化支持JavaSerializer和KryoSerializer。

support.huaweicloud.com/cmpntguide-mrs/mrs_01_1976.html