PySpark实战:filter操作
来自CloudWiki
介绍
filter操作是一个变换算子
它根据过滤函数func的逻辑定义来对原RDD中的元素进行过滤,并返回一个新的RDD
代码
import findspark findspark.init() ############################################## from pyspark.sql import SparkSession spark = SparkSession.builder \ .master("local[1]") \ .appName("RDD Demo") \ .getOrCreate(); sc = spark.sparkContext ############################################# rdd = sc.parallelize([1, 2, 3, 4, 5,6]) rdd = rdd.filter(lambda x: x % 2 == 0) #[2, 4, 6] print(rdd.collect()) ############################################## sc.stop()
输出
[2, 4, 6]