PySpark实战:sum操作-求和操作
来自CloudWiki
介绍
sum操作是一个动作算子,
它可以获取RDD中元素的和
代码
import findspark findspark.init() ############################################## from pyspark.sql import SparkSession spark = SparkSession.builder \ .master("local[1]") \ .appName("RDD Demo") \ .getOrCreate(); sc = spark.sparkContext ############################################# rdd = sc.parallelize([1, 2, 3, 4 , 5], 2) #15 print(rdd.sum()) ############################################## sc.stop()
sc.parallelize([1, 2, 3, 4 , 5], 2):
第一个参数是给定一个集合,第2个参数是分区数量
输出
15