查看“第一个Spark应用程序:WordCount(Python版)”的源代码
←
第一个Spark应用程序:WordCount(Python版)
跳转至:
导航
,
搜索
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
前面已经学习了Spark安装,完成了实验环境的搭建,并且学习了Spark运行架构和RDD设计原理,同时,我们还学习了Scala编程的基本语法,有了这些基础知识作为铺垫,现在我们可以没有障碍地开始编写一个简单的Spark应用程序了——词频统计。 ==任务要求== 任务:编写一个Spark应用程序,对某个文件中的单词进行词频统计。 准备工作:请进入Linux系统,打开“终端”,进入Shell命令提示符状态,然后,执行如下命令新建目录: <nowiki>cd /usr/local/spark mkdir mycode cd mycode mkdir wordcount cd wordcount</nowiki> 然后,在“/usr/local/spark/mycode/wordcount”目录下新建一个包含了一些语句的文本文件word.txt,命令如下: vim word.txt 你可以在文本文件中随意输入一些单词,用空格隔开,我们会编写Spark程序对该文件进行单词词频统计。然后,按键盘Esc键退出vim编辑状态,输入“:wq”保存文件并退出vim编辑器。 ==在pyspark中执行词频统计== ===启动pyspark=== 首先,请登录Linux系统(要注意记住登录采用的用户名,本教程统一采用hadoop用户名进行登录),打开“终端”(可以在Linux系统中使用Ctrl+Alt+T组合键开启终端),进入shell命令提示符状态,然后执行以下命令进入pyspark: <nowiki> cd $SPARK_HOME ./bin/pyspark ....//这里省略启动过程显示的一大堆信息 >>></nowiki> 启动进入pyspark需要一点时间,在进入pyspark后,我们可能还需要到Linux文件系统中对相关目录下的文件进行编辑和操作(比如要查看spark程序执行过程生成的文件),这个无法在pyspark中完成,因此,这里再打开第二个终端,用来在Linux系统的Shell命令提示符下操作。
返回至
第一个Spark应用程序:WordCount(Python版)
。
导航菜单
个人工具
登录
命名空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
帮助
工具
链入页面
相关更改
特殊页面
页面信息