PySpark实战:stats操作
来自CloudWiki
介绍
stats操作是一个动作算子,给出数据的统计信息
它的作用是返回一个StatCounter对象,该对象获取到RDD元素的计数、均值、方差、最大值和最小值。
代码
import findspark findspark.init() ############################################## from pyspark.sql import SparkSession spark = SparkSession.builder \ .master("local[1]") \ .appName("RDD Demo") \ .getOrCreate(); sc = spark.sparkContext ############################################# rdd = sc.parallelize(range(100)) #(count: 100, mean: 49.5, stdev: 28.86607004772212, max: 99, min: 0) print(rdd.stats()) ############################################## sc.stop()
输出
(count: 100, mean: 49.5, stdev: 28.86607004772212, max: 99, min: 0)