PySpark实战:stats操作

来自CloudWiki
跳转至: 导航搜索

介绍

stats操作是一个动作算子,给出数据的统计信息

它的作用是返回一个StatCounter对象,该对象获取到RDD元素的计数、均值、方差、最大值和最小值。

代码

import findspark
findspark.init()
##############################################
from pyspark.sql import SparkSession
spark = SparkSession.builder \
        .master("local[1]") \
        .appName("RDD Demo") \
        .getOrCreate();
sc = spark.sparkContext
#############################################
rdd = sc.parallelize(range(100))
#(count: 100, mean: 49.5, stdev: 28.86607004772212, max: 99, min: 0)
print(rdd.stats())
##############################################
sc.stop()

输出

(count: 100, mean: 49.5, stdev: 28.86607004772212, max: 99, min: 0)