PySpark实战:saveAsTextFile操作
来自CloudWiki
介绍
saveAsTextFile操作的调用形式为rdd.saveAsTextFile(path,compressionCodeClass=None),
它的作用是保存RDD对象为一个文件,其中元素以字符串的形式体现。
代码
import findspark findspark.init() ############################################## from pyspark.sql import SparkSession spark = SparkSession.builder \ .master("local[1]") \ .appName("RDD Demo") \ .getOrCreate(); sc = spark.sparkContext ############################################# rdd =sc.range(1,10,2) #[1, 3, 5, 7, 9] print(rdd.collect()) #spark-rdd是目录,且不能存在此目录 rdd.saveAsTextFile("/root/spark-rdd2") ############################################## sc.stop()
生成的数据是由多个文件组成的
[root@localhost wmsoft]# ls ~/spark-rdd2
part-00000 _SUCCESS
输出
[1, 3, 5, 7, 9]