PySpark实战：提交你的Spark程序

介绍

当Python编写完成一个脚本文件，

需要提交到Spark集群上进行执行

此时需要用到的命令为spark-submit

该命令有多个参数：

--master 设置集群的URL, local表示本地，yarn表示提交到YARN模式部署的集群中

--deploy-mode: client或cluster ,client是在客户端上启动Driver、在集群上执行任务，cluster是都在集群上运行

--py-files PYFILES: 用逗号隔开的.zip、.egg 、和.py文件，这些文件会放置在PYTHONPATH下，该参数仅针对Python应用程序。

...

执行步骤

cd /root/wmtools/spark-2.4.8-bin-hadoop2.7/bin

./spark-submit /root/wmsoft/first_pyspark_pi.py

或

./spark-submit /root/wmsoft/first_pyspark_pi.py --master local

或

./spark-submit /root/wmsoft/first_pyspark_pi.py --master yarn --deploy-mode client

注：如果需要提交的程序由多个.py文件构成，且彼此之间有调用关系，那么需要将用到的Python文件打包成一个zip文件后再提交。

结果

21/07/27 17:52:12 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Pi is roughly 3.141086

PySpark实战：提交你的Spark程序

介绍

执行步骤

结果

导航菜单

个人工具

命名空间

变种

视图

更多

搜索

导航

工具