PySpark实战:countByValue操作-统计RDD中各个value出现的次数

来自CloudWiki
跳转至: 导航搜索

介绍

countByValue操作是一个动作算子,

统计一个RDD中各个Value出现的次数,并返回一个字典,

字典的Key是元素的值,而Value是出现的次数。

代码

import findspark
findspark.init()
##############################################
from pyspark.sql import SparkSession
spark = SparkSession.builder \
        .master("local[1]") \
        .appName("RDD Demo") \
        .getOrCreate();
sc = spark.sparkContext
#############################################
rdd = sc.parallelize(["a", "b", "a", "c"])
#[('a', 2), ('b', 1), ('c', 1)]
print(sorted(rdd.countByValue().items()))
##############################################
sc.stop()

输出

[('a', 2), ('b', 1), ('c', 1)]