PySpark实战:提交你的Spark程序
来自CloudWiki
介绍
当Python编写完成一个脚本文件,
需要提交到Spark集群上进行执行
此时需要用到的命令为spark-submit
该命令有多个参数:
- --master 设置集群的URL, local表示本地,yarn表示提交到YARN模式部署的集群中
- --deploy-mode: client或cluster ,client是在客户端上启动Driver、在集群上执行任务,cluster是都在集群上运行
- --py-files PYFILES: 用逗号隔开的.zip、.egg 、和.py文件,这些文件会放置在PYTHONPATH下,该参数仅针对Python应用程序。
...
执行步骤
cd /root/wmtools/spark-2.4.8-bin-hadoop2.7/bin
./spark-submit /root/wmsoft/first_pyspark_pi.py
或
./spark-submit /root/wmsoft/first_pyspark_pi.py --master local
或
./spark-submit /root/wmsoft/first_pyspark_pi.py --master yarn --deploy-mode client
- 注:如果需要提交的程序由多个.py文件构成,且彼此之间有调用关系,那么需要将用到的Python文件打包成一个zip文件后再提交。
结果
21/07/27 17:52:12 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Pi is roughly 3.141086