PySpark实战:zip操作

来自CloudWiki
跳转至: 导航搜索

介绍

zip操作是一个变换算子,

它的作用是将第一个RDD中的元素作为key ,第二个RDD对应的元素作为Value ,

组合成元素格式为元组的新RDD.

这两个参与运算的RDD元素个数应该相同。

代码

import findspark
findspark.init()
##############################################
from pyspark.sql import SparkSession
spark = SparkSession.builder \
        .master("local[1]") \
        .appName("RDD Demo") \
        .getOrCreate();
sc = spark.sparkContext
#############################################
x = sc.parallelize(range(1,6))
y = sc.parallelize(range(801, 806))
#[(1, 801), (2, 802), (3, 803), (4, 804), (5, 805)]
#x,y长度必须相等
print(x.zip(y).collect())
##############################################
sc.stop()

输出

[(1, 801), (2, 802), (3, 803), (4, 804), (5, 805)]