查看“PySpark实战：zip操作”的源代码

==介绍==
zip操作是一个变换算子，

它的作用是将第一个RDD中的元素作为key ,第二个RDD对应的元素作为Value ,

组合成元素格式为元组的新RDD.

这两个参与运算的RDD元素个数应该相同。

==代码==
 <nowiki>
import findspark
findspark.init()
##############################################
from pyspark.sql import SparkSession
spark = SparkSession.builder \
        .master("local[1]") \
        .appName("RDD Demo") \
        .getOrCreate();
sc = spark.sparkContext
#############################################
x = sc.parallelize(range(1,6))
y = sc.parallelize(range(801, 806))
#[(1, 801), (2, 802), (3, 803), (4, 804), (5, 805)]
#x,y长度必须相等
print(x.zip(y).collect())
##############################################
sc.stop()
</nowiki>

==输出==
[(1, 801), (2, 802), (3, 803), (4, 804), (5, 805)]