PySpark实战：countByValue操作-统计RDD中各个value出现的次数

介绍

countByValue操作是一个动作算子，

统计一个RDD中各个Value出现的次数，并返回一个字典，

字典的Key是元素的值，而Value是出现的次数。

代码

import findspark
findspark.init()
##############################################
from pyspark.sql import SparkSession
spark = SparkSession.builder \
        .master("local[1]") \
        .appName("RDD Demo") \
        .getOrCreate();
sc = spark.sparkContext
#############################################
rdd = sc.parallelize(["a", "b", "a", "c"])
#[('a', 2), ('b', 1), ('c', 1)]
print(sorted(rdd.countByValue().items()))
##############################################
sc.stop()

输出

[('a', 2), ('b', 1), ('c', 1)]

PySpark实战：countByValue操作-统计RDD中各个value出现的次数

介绍

代码

输出

导航菜单

个人工具

命名空间

变种

视图

更多

搜索

导航

工具