PySpark实战:count操作-获取元素总个数
来自CloudWiki
介绍
count操作是一个动作算子,
可以获取RDD中元素的个数
代码
import findspark findspark.init() ############################################## from pyspark.sql import SparkSession spark = SparkSession.builder \ .master("local[1]") \ .appName("RDD Demo") \ .getOrCreate(); sc = spark.sparkContext ############################################# rdd =sc.parallelize(["a","b","c"]) #获取元素数量 #3 print(rdd.count()) rdd =sc.parallelize([["a","b"],"c"]) #2 print(rdd.count()) ############################################## sc.stop()
输出
3
2