PySpark实战:distinct操作
来自CloudWiki
介绍
distinct操作是一个变换算子,
它的作用是去重,即多个重复的元素只保留一个
代码
import findspark findspark.init() ############################################## from pyspark.sql import SparkSession spark = SparkSession.builder \ .master("local[1]") \ .appName("RDD Demo") \ .getOrCreate(); sc = spark.sparkContext ############################################# rdd =sc.parallelize(["a","a","c"]) #distinct()去重 #['a', 'c'] print(rdd.distinct().collect()) ############################################## sc.stop()
输出
['a', 'c']