PySpark实战:saveAsTextFile操作

来自CloudWiki
跳转至: 导航搜索

介绍

saveAsTextFile操作的调用形式为rdd.saveAsTextFile(path,compressionCodeClass=None),

它的作用是保存RDD对象为一个文件,其中元素以字符串的形式体现。

代码

import findspark
findspark.init()
##############################################
from pyspark.sql import SparkSession
spark = SparkSession.builder \
        .master("local[1]") \
        .appName("RDD Demo") \
        .getOrCreate();
sc = spark.sparkContext
#############################################
rdd =sc.range(1,10,2)
#[1, 3, 5, 7, 9]
print(rdd.collect())
#spark-rdd是目录,且不能存在此目录
rdd.saveAsTextFile("/root/spark-rdd2")
##############################################
sc.stop()

生成的数据是由多个文件组成的

[root@localhost wmsoft]# ls ~/spark-rdd2

part-00000  _SUCCESS

输出

[1, 3, 5, 7, 9]