PySpark实战:RDD的操作与观察
来自CloudWiki
背景
Spark 很大计算依赖于RDD
因此学习RDD的相关操作对于掌握PySpark来说非常重要
RDD包括两个操作算子:
- 变换(Transformations):特点是懒执行,变换操作并不立即执行,而是等到有动作(Action)操作的时候才会真正进行计算
- 动作(Actions):动作算子的特点是会立即执行,动作操作会对RDD计算出一个结果,并把结果返回到驱动器程序中
默认情况下,RDD执行动作算子时,Spark会重新计算并刷新RDD,
但借助RDD的持久化存储(cache 和persist) 可以将RDD缓存在内存当中,提高计算速度