PySpark实战:values操作
来自CloudWiki
介绍
values操作与keys操作类似,是一个变换算子
它的作用是获取KV格式的RDD中的value序列,并返回一个新的RDD对象。
代码
import findspark findspark.init() ############################################## from pyspark.sql import SparkSession spark = SparkSession.builder \ .master("local[1]") \ .appName("RDD Demo") \ .getOrCreate(); sc = spark.sparkContext ############################################# rdd1 = sc.parallelize([("a",1),("b",2),("a",3)]) #[1, 2, 3] print(rdd1.values().collect()) rdd1 = sc.parallelize([["a",1],["b",2],["a",3]]) #[1, 2, 3] print(rdd1.values().collect()) ############################################## sc.stop()
输出
[1, 2, 3]
[1, 2, 3]