PySpark实战：collect操作-将RDD类型的数据转化为数组

介绍

collect操作是一个动作算子，

它可以将RDD类型的数据转化为数组，同时会从集群中拉取数据到driver端，这对于少量RDD数据的观察非常有用。

代码


import findspark
findspark.init()
##############################################
from pyspark.sql import SparkSession
spark = SparkSession.builder \
        .master("local[1]") \
        .appName("RDD Demo") \
        .getOrCreate();
sc = spark.sparkContext
#############################################
rdd = sc.parallelize([("a", 2), ("b", "c")])
#[('a', 2), ('b', 'c')]
print(rdd.collect())
##############################################
sc.stop()

rdd.collect()将RDD数据格式转换成一个数据序列

注意：由于collect操作会将RDD数据汇总到一处，如果数据量非常大，那么可能会出现内存不足等情况，因此不适合海量数据的查看。

结果

[('a', 2), ('b', 'c')]

PySpark实战：collect操作-将RDD类型的数据转化为数组

介绍

代码

结果

导航菜单

个人工具

命名空间

变种

视图

更多

搜索

导航

工具