PySpark实战:zip操作
来自CloudWiki
介绍
zip操作是一个变换算子,
它的作用是将第一个RDD中的元素作为key ,第二个RDD对应的元素作为Value ,
组合成元素格式为元组的新RDD.
这两个参与运算的RDD元素个数应该相同。
代码
import findspark findspark.init() ############################################## from pyspark.sql import SparkSession spark = SparkSession.builder \ .master("local[1]") \ .appName("RDD Demo") \ .getOrCreate(); sc = spark.sparkContext ############################################# x = sc.parallelize(range(1,6)) y = sc.parallelize(range(801, 806)) #[(1, 801), (2, 802), (3, 803), (4, 804), (5, 805)] #x,y长度必须相等 print(x.zip(y).collect()) ############################################## sc.stop()
输出
[(1, 801), (2, 802), (3, 803), (4, 804), (5, 805)]