PySpark实战:RDD的操作与观察

来自CloudWiki
跳转至: 导航搜索

背景

Spark 很大计算依赖于RDD

因此学习RDD的相关操作对于掌握PySpark来说非常重要

RDD包括两个操作算子:

  • 变换(Transformations):特点是懒执行,变换操作并不立即执行,而是等到有动作(Action)操作的时候才会真正进行计算
  • 动作(Actions):动作算子的特点是会立即执行,动作操作会对RDD计算出一个结果,并把结果返回到驱动器程序中

默认情况下,RDD执行动作算子时,Spark会重新计算并刷新RDD,

但借助RDD的持久化存储(cache 和persist) 可以将RDD缓存在内存当中,提高计算速度