PySpark实战:subtract操作
来自CloudWiki
介绍
subtract操作是一个变换算子,
它的作用是从RDD中排除掉otherRDD中的元素,并返回一个新RDD
代码
import findspark findspark.init() ############################################## from pyspark.sql import SparkSession spark = SparkSession.builder \ .master("local[1]") \ .appName("RDD Demo") \ .getOrCreate(); sc = spark.sparkContext ############################################# x = sc.parallelize([("a", 1), ("b", 4), ("b", 5), ("a", 3)]) y = sc.parallelize([("a", 1), ("b", 5)]) z = x.subtract(y) #[('b', 4), ('a', 3)] print(z.collect()) ############################################## sc.stop()
输出
[('b', 4), ('a', 3)]