PySpark实战:RDD的操作与观察

来自CloudWiki
Cloud17讨论 | 贡献2021年6月30日 (三) 13:56的版本 (创建页面,内容为“==背景== Spark 很大计算依赖于RDD 因此学习RDD的相关操作对于掌握PySpark来说非常重要 RDD包括两个操作算子: *变换(Transformat…”)
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转至: 导航搜索

背景

Spark 很大计算依赖于RDD

因此学习RDD的相关操作对于掌握PySpark来说非常重要

RDD包括两个操作算子:

  • 变换(Transformations):特点是懒执行,变换操作并不立即执行,而是等到有动作(Action)操作的时候才会真正进行计算
  • 动作(Actions):动作算子的特点是会立即执行,动作操作会对RDD计算出一个结果,并把结果返回到驱动器程序中

默认情况下,RDD执行动作算子时,Spark会重新计算并刷新RDD,

但借助RDD的持久化存储(cache 和persist) 可以将RDD缓存在内存当中,提高计算速度