查看“PySpark实战:Jupyter Notebook安装”的源代码
←
PySpark实战:Jupyter Notebook安装
跳转至:
导航
,
搜索
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
==安装jupyter== pip3 install jupyter -i https://pypi.mirrors.ustc.edu.cn/simple/ [root@localhost ~]# find / -name \jupyter <nowiki>/usr/local/Python3/bin/jupyter /usr/local/Python3/share/jupyter /usr/local/Python3/etc/jupyter</nowiki> cd /usr/local/Python3/bin ./jupyter notebook --allow-root ===安装findspark=== pip3 install findspark ===设置环境变量=== vi /etc/profile export SPARK_HOME=/root/wmtools/spark-2.4.8-bin-hadoop2.7 source /etc/profile ===运行Spark代码=== python3 demo20.py <nowiki>#pip install findspark #fix:ModuleNotFoundError: No module named 'pyspark' import findspark findspark.init() ############################# from pyspark import SparkConf, SparkContext # 创建SparkContext conf = SparkConf().setAppName("WordCount").setMaster("local[*]") sc = SparkContext(conf=conf) rdd = sc.parallelize(["hello world","hello spark"]); rdd2 = rdd.flatMap(lambda line:line.split(" ")); rdd3 = rdd2.map(lambda word:(word,1)); rdd5 = rdd3.reduceByKey(lambda a, b : a + b); #print,否则无法显示结果 #[('spark', 1), ('hello', 2), ('world', 1)] print(rdd5.collect()); #防止多次创建SparkContexts sc.stop() </nowiki>
返回至
PySpark实战:Jupyter Notebook安装
。
导航菜单
个人工具
登录
命名空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
帮助
工具
链入页面
相关更改
特殊页面
页面信息