PySpark实战:countByValue操作-统计RDD中各个value出现的次数
来自CloudWiki
介绍
countByValue操作是一个动作算子,
统计一个RDD中各个Value出现的次数,并返回一个字典,
字典的Key是元素的值,而Value是出现的次数。
代码
import findspark findspark.init() ############################################## from pyspark.sql import SparkSession spark = SparkSession.builder \ .master("local[1]") \ .appName("RDD Demo") \ .getOrCreate(); sc = spark.sparkContext ############################################# rdd = sc.parallelize(["a", "b", "a", "c"]) #[('a', 2), ('b', 1), ('c', 1)] print(sorted(rdd.countByValue().items())) ############################################## sc.stop()
输出
[('a', 2), ('b', 1), ('c', 1)]