查看“PySpark实战:sortBy操作”的源代码
←
PySpark实战:sortBy操作
跳转至:
导航
,
搜索
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
==介绍== sortBy操作是一个变换算子, sortBy(keyfunc, ascending=True, numPartitions=None) 可以实现灵活的排序功能。 它的作用是根据函数keyfunc来对RDD对象元素进行排序,并返回一个新的RDD ==代码== <nowiki> import findspark findspark.init() ############################################## from pyspark.sql import SparkSession spark = SparkSession.builder \ .master("local[1]") \ .appName("RDD Demo") \ .getOrCreate(); sc = spark.sparkContext ############################################# rdd = [('a', 6), ('f', 2), ('c', 7), ('d', 4), ('e', 5)] rdd2 = sc.parallelize(rdd).sortBy(lambda x: x[0]) #[('a', 6), ('c', 7), ('d', 4), ('e', 5), ('f', 2)] print(rdd2.collect()) rdd3 = sc.parallelize(rdd).sortBy(lambda x: x[1]) #[('f', 2), ('d', 4), ('e', 5), ('a', 6), ('c', 7)] print(rdd3.collect()) rdd3 = sc.parallelize(rdd).sortBy(lambda x: x[1],False) #[('c', 7), ('a', 6), ('e', 5), ('d', 4), ('f', 2)] print(rdd3.collect()) rdd3 = sc.parallelize(rdd).sortBy(lambda x: x[1],False,2) #[('c', 7), ('a', 6), ('e', 5), ('d', 4), ('f', 2)] print(rdd3.collect()) ############################################## sc.stop() </nowiki> ==输出== [('a', 6), ('c', 7), ('d', 4), ('e', 5), ('f', 2)] [('f', 2), ('d', 4), ('e', 5), ('a', 6), ('c', 7)] [('c', 7), ('a', 6), ('e', 5), ('d', 4), ('f', 2)] [('c', 7), ('a', 6), ('e', 5), ('d', 4), ('f', 2)]
返回至
PySpark实战:sortBy操作
。
导航菜单
个人工具
登录
命名空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
帮助
工具
链入页面
相关更改
特殊页面
页面信息