“PySpark实战:values操作”的版本间的差异
来自CloudWiki
(创建页面,内容为“==介绍== values操作与keys操作类似,是一个变换算子 它的作用是获取KV格式的RDD中的value序列,并返回一个新的RDD对象。”) |
|||
第3行: | 第3行: | ||
它的作用是获取KV格式的RDD中的value序列,并返回一个新的RDD对象。 | 它的作用是获取KV格式的RDD中的value序列,并返回一个新的RDD对象。 | ||
+ | |||
+ | ==代码== | ||
+ | <nowiki> | ||
+ | |||
+ | import findspark | ||
+ | findspark.init() | ||
+ | ############################################## | ||
+ | from pyspark.sql import SparkSession | ||
+ | spark = SparkSession.builder \ | ||
+ | .master("local[1]") \ | ||
+ | .appName("RDD Demo") \ | ||
+ | .getOrCreate(); | ||
+ | sc = spark.sparkContext | ||
+ | ############################################# | ||
+ | rdd1 = sc.parallelize([("a",1),("b",2),("a",3)]) | ||
+ | #[1, 2, 3] | ||
+ | print(rdd1.values().collect()) | ||
+ | rdd1 = sc.parallelize([["a",1],["b",2],["a",3]]) | ||
+ | #[1, 2, 3] | ||
+ | print(rdd1.values().collect()) | ||
+ | ############################################## | ||
+ | sc.stop() | ||
+ | </nowiki> | ||
+ | |||
+ | ==输出== | ||
+ | [1, 2, 3] | ||
+ | |||
+ | [1, 2, 3] |
2021年7月5日 (一) 10:11的最新版本
介绍
values操作与keys操作类似,是一个变换算子
它的作用是获取KV格式的RDD中的value序列,并返回一个新的RDD对象。
代码
import findspark findspark.init() ############################################## from pyspark.sql import SparkSession spark = SparkSession.builder \ .master("local[1]") \ .appName("RDD Demo") \ .getOrCreate(); sc = spark.sparkContext ############################################# rdd1 = sc.parallelize([("a",1),("b",2),("a",3)]) #[1, 2, 3] print(rdd1.values().collect()) rdd1 = sc.parallelize([["a",1],["b",2],["a",3]]) #[1, 2, 3] print(rdd1.values().collect()) ############################################## sc.stop()
输出
[1, 2, 3]
[1, 2, 3]