PySpark实战:提交你的Spark程序

来自CloudWiki
跳转至: 导航搜索

介绍

当Python编写完成一个脚本文件,

需要提交到Spark集群上进行执行

此时需要用到的命令为spark-submit

该命令有多个参数:

  • --master 设置集群的URL, local表示本地,yarn表示提交到YARN模式部署的集群中
  • --deploy-mode: client或cluster ,client是在客户端上启动Driver、在集群上执行任务,cluster是都在集群上运行
  • --py-files PYFILES: 用逗号隔开的.zip、.egg 、和.py文件,这些文件会放置在PYTHONPATH下,该参数仅针对Python应用程序。

...

执行步骤

cd /root/wmtools/spark-2.4.8-bin-hadoop2.7/bin

./spark-submit /root/wmsoft/first_pyspark_pi.py

./spark-submit /root/wmsoft/first_pyspark_pi.py --master local

./spark-submit /root/wmsoft/first_pyspark_pi.py --master yarn --deploy-mode client

  • 注:如果需要提交的程序由多个.py文件构成,且彼此之间有调用关系,那么需要将用到的Python文件打包成一个zip文件后再提交。


结果

21/07/27 17:52:12 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Pi is roughly 3.141086