查看“PySpark实战:DataFrame去重处理”的源代码
←
PySpark实战:DataFrame去重处理
跳转至:
导航
,
搜索
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
==介绍== 数据集中,有可能存在重复的数据。 此时在查询时,根据需要有可能要进行去重处理。 ==代码== <nowiki> import findspark findspark.init() ############################################## from pyspark.sql import SparkSession spark = SparkSession.builder \ .master("local[1]") \ .appName("RDD Demo") \ .getOrCreate(); sc = spark.sparkContext ############################################# a = [ ('01','张三', '男',32,5000), ('01','李四', '男',33,6000), ('01','王五', '女',38,5500), ('02','Jack', '男',42,7000), ('02','Smith', '女',27,6500), ('02','Lily', '女',45,9500), ('02','Lily', '女',45,9500) ] rdd = sc.parallelize(a) peopleDf = spark.createDataFrame(rdd,\ "deptId:string,name:string,gender:string,age:int,salary:int") #['deptId', 'name', 'gender', 'age', 'salary'] print(peopleDf.columns) peopleDf.distinct().show() # +------+-----+------+---+------+ # |deptId| name|gender|age|salary| # +------+-----+------+---+------+ # | 01| 王五| 女| 38| 5500| # | 02|Smith| 女| 27| 6500| # | 01| 李四| 男| 33| 6000| # | 02| Lily| 女| 45| 9500| # | 02| Jack| 男| 42| 7000| # | 01| 张三| 男| 32| 5000| # +------+-----+------+---+------+ ############################################## </nowiki> ==输出== <nowiki> ['deptId', 'name', 'gender', 'age', 'salary'] +------+-----+------+---+------+ |deptId| name|gender|age|salary| +------+-----+------+---+------+ | 01| 王五| 女| 38| 5500| | 02|Smith| 女| 27| 6500| | 01| 李四| 男| 33| 6000| | 02| Lily| 女| 45| 9500| | 02| Jack| 男| 42| 7000| | 01| 张三| 男| 32| 5000| </nowiki>
返回至
PySpark实战:DataFrame去重处理
。
导航菜单
个人工具
登录
命名空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
帮助
工具
链入页面
相关更改
特殊页面
页面信息