MAPREDUCE服务 MRS-Spark基本原理:Spark结构
Spark结构
Spark的结构如图1所示,各模块的说明如表 基本概念说明所示。
模块 |
说明 |
---|---|
Cluster Manager |
集群管理器,管理集群中的资源。Spark支持多种集群管理器,Spark自带的Standalone集群管理器、Mesos或YARN,系统默认采用YARN模式。 |
Application |
Spark应用,由一个Driver Program和多个Executor组成。 |
Deploy Mode |
部署模式,分为cluster和client模式。cluster模式下,Driver会在集群内的节点运行;而在client模式下,Driver在客户端运行(集群外)。 |
Driver Program |
是Spark应用程序的主进程,运行Application的main()函数并创建SparkContext。负责应用程序的解析、生成Stage并调度Task到Executor上。通常SparkContext代表Driver Program。 |
Executor |
在Work Node上启动的进程,用来执行Task,管理并处理应用中使用到的数据。一个Spark应用一般包含多个Executor,每个Executor接收Driver的命令,并执行一到多个Task。 |
Worker Node |
集群中负责启动并管理Executor以及资源的节点。 |
Job |
一个Action算子(比如collect算子)对应一个Job,由并行计算的多个Task组成。 |
Stage |
每个Job由多个Stage组成,每个Stage是一个Task集合,由DAG分割而成。 |
Task |
承载业务逻辑的运算单元,是Spark平台上可执行的最小工作单元。一个应用根据执行计划以及计算量分为多个Task。 |
- 什么是Spark_如何使用Spark_Spark的功能是什么
- MapReduce工作原理_MapReduce是什么意思_MapReduce流程_MRS_华为云
- Hudi服务_什么是Hudi_如何使用Hudi
- MapReduce服务_什么是HDFS_HDFS特性
- MapReduce服务_什么是Hive_如何使用Hive
- MapReduce服务_什么是Flume_如何使用Flume
- MapReduce服务_什么是Hue_如何使用Hue
- MapReduce服务_什么是ZooKeeper_如何使用ZooKeeper
- 什么是Spark SQL作业_数据湖探索DLISpark SQL作业
- MapReduce服务_什么是存算分离_如何配置MRS集群存算分离