PySpark实战:keys操作
来自CloudWiki
介绍
keys操作是一个变换算子,
它的作用是获取KV格式RDD中的Key序列,并返回一个新的RDD对象
代码
import findspark findspark.init() ############################################## from pyspark.sql import SparkSession spark = SparkSession.builder \ .master("local[1]") \ .appName("RDD Demo") \ .getOrCreate(); sc = spark.sparkContext ############################################# rdd1 = sc.parallelize([("a",1),("b",2),("a",3)]) #['a', 'b', 'a'] print(rdd1.keys().collect()) rdd1 = sc.parallelize([["a",1],["b",2],["a",3]]) #['a', 'b', 'a'] print(rdd1.keys().collect()) ############################################## sc.stop()
输出
['a', 'b', 'a']
['a', 'b', 'a']