PySpark实战:countByKey操作-统计RDD中每个键的数量
来自CloudWiki
介绍
countByKey操作是一个动作算子,用于统计RDD[K,V]中每个K的数量
代码
import findspark findspark.init() ############################################## from pyspark.sql import SparkSession spark = SparkSession.builder \ .master("local[1]") \ .appName("RDD Demo") \ .getOrCreate(); sc = spark.sparkContext ############################################# rdd = sc.parallelize([("a", 1), ("b", 2), ("a", 3)]) #[('a', 2), ('b', 1)] print(sorted(rdd.countByKey().items())) ############################################## sc.stop()
RDD[K,V]格式不仅适用于[("a",1),("b",2),("a",3)],还适用于[["a",1],["b",2],["a",3]]
输出
[('a', 2), ('b', 1)]