PySpark实战:countByKey操作-统计RDD中每个键的数量

来自CloudWiki
跳转至: 导航搜索

介绍

countByKey操作是一个动作算子,用于统计RDD[K,V]中每个K的数量

代码


import findspark
findspark.init()
##############################################
from pyspark.sql import SparkSession
spark = SparkSession.builder \
        .master("local[1]") \
        .appName("RDD Demo") \
        .getOrCreate();
sc = spark.sparkContext
#############################################
rdd = sc.parallelize([("a", 1), ("b", 2), ("a", 3)])
#[('a', 2), ('b', 1)]
print(sorted(rdd.countByKey().items()))
##############################################
sc.stop()

RDD[K,V]格式不仅适用于[("a",1),("b",2),("a",3)],还适用于[["a",1],["b",2],["a",3]]

输出

[('a', 2), ('b', 1)]