MapReduce服务 MRS-常用参数:Python Spark
Python Spark
Python Spark是Spark除了Scala、Java两种API之外的第三种编程语言。不同于Java和Scala都是在JVM平台上运行,Python Spark不仅会有JVM进程,还会有自身的Python进程。以下配置项只适用于Python Spark场景,而其他配置项也同样可以在Python Spark中生效。
参数 |
描述 |
默认值 |
---|---|---|
spark.python.profile |
在Python worker中开启profiling。通过sc.show_profiles()展示分析结果。或者在driver退出前展示分析结果。可以通过sc.dump_profiles(path) 将结果转储到磁盘中。如果一些分析结果已经手动展示,那么在Driver退出前,它们将不会再自动展示。 默认使用pyspark.profiler.BasicProfiler,可以在初始化SparkContext时传入指定的profiler来覆盖默认的profiler。 |
false |
spark.python.worker.memory |
聚合过程中每个python worker进程所能使用的内存大小,其值格式同指定JVM内存一致,如512m,2g。如果进程在聚集期间所用的内存超过了该值,数据将会被写入磁盘。 |
512m |
spark.python.worker.reuse |
是否重用python worker。如是,它将使用固定数量的Python workers,那么下一批提交的task将重用这些Python workers,而不是为每个task重新fork一个Python进程。 该功能在大型广播下非常有用,因为此时对下一批提交的task不需要将数据从JVM再一次传输至Python worker。 |
true |
- MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用
- 大数据分析是什么_使用MapReduce_创建MRS服务
- 什么是Spark_如何使用Spark_Spark的功能是什么
- MapReduce服务_什么是Hue_如何使用Hue
- Hudi服务_什么是Hudi_如何使用Hudi
- 数据治理中心_数据开发_数据开发示例_使用教程-华为云
- 什么是Spark SQL作业_数据湖探索DLISpark SQL作业
- MapReduce服务_什么是存算分离_如何配置MRS集群存算分离
- MapReduce服务_什么是HDFS_HDFS特性
- MapReduce工作原理_MapReduce是什么意思_MapReduce流程_MRS_华为云