PySpark实战:union操作
来自CloudWiki
介绍
union操作是一个变换算子,
它的作用是将第一个RDD中的元素与第二个RDD对应的元素进行合并,返回新RDD
代码
import findspark findspark.init() ############################################## from pyspark.sql import SparkSession spark = SparkSession.builder \ .master("local[1]") \ .appName("RDD Demo") \ .getOrCreate(); sc = spark.sparkContext ############################################# rdd =sc.parallelize(range(1,10)) rdd2 =sc.parallelize(range(11,20)) rdd3 = rdd.union(rdd2) #[1, 2, 3, 4, 5, 6, 7, 8, 9, 11, 12, 13, 14, 15, 16, 17, 18, 19] print(rdd3.collect()) ############################################## sc.stop()
输出
[1, 2, 3, 4, 5, 6, 7, 8, 9, 11, 12, 13, 14, 15, 16, 17, 18, 19]