Spark运行架构

来自CloudWiki

202.194.23.20（讨论）2019年7月16日 (二) 05:29的版本（创建页面，内容为“==Spark运行架构== Spark运行架构包括集群资源管理器（Cluster Manager）、运行作业任务的工作节点（Worker Node）、每个应用的任务…”）

(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)

跳转至：导航，搜索

Spark运行架构

Spark运行架构包括集群资源管理器（Cluster Manager）、运行作业任务的工作节点（Worker Node）、每个应用的任务控制节点（Driver）和每个工作节点上负责具体任务的执行进程（Executor）

资源管理器可以自带或Mesos或YARN

与Hadoop MapReduce计算框架相比，Spark所采用的Executor有两个优点：

一是利用多线程来执行具体的任务，减少任务的启动开销

二是Executor中有一个BlockManager存储模块，会将内存和磁盘共同作为存储设备，有效减少IO开销

文件:Bd3-20.png

DAG

DAG 是一组顶点和边的组合。顶点代表了 RDD，边代表了对 RDD 的一系列操作。

DAG Scheduler 会根据 RDD 的 transformation 动作，将 DAG 分为不同的 stage，每个 stage 中分为多个 task，这些 task 可以并行运行。

取自“http://www.openbrains.net/mediawiki/index.php?title=Spark运行架构&oldid=13933”

含有受损文件链接的页面