Spark电影推荐

来自CloudWiki
Cloud17讨论 | 贡献2018年7月28日 (六) 22:27的版本 准备工作
跳转至: 导航搜索

准备工作

图像分割实验

协同过滤实验

用户画像练习

使用Spark MLlib协同过滤算法基于用户评分推荐电影

第5章、第6章 数据集:http://files.grouplens.org/datasets/movielens/ml-latest-small.zip

放到程序目录中即可

第5章:movielens_als_recommendation.py

第6章: movielens_lda_recommendation.py

安装SPARK、Hadoop

1、安装JAVA1.8   cmd中 java -version查看java版本

2、下载并安装spark 2.3.1
https://www.apache.org/dyn/closer.lua/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz
环境变量 
SPARK_HOME = F:\spark-2.3.1-bin-hadoop2.7
Path添加 %SPARK_HOME%/bin

3、下载并安装hadoop
https://archive.apache.org/dist/hadoop/common/hadoop-2.7.6/
环境变量 
HADOOP_HOME = F:\hadoop-2.7.6\hadoop-2.7.6
Path添加 %HADOOP_HOME%/bin

4、pip install py4j

5、Pycharm => Run => Edit Configurations => Environment Variables => SPARK_HOME = F:\spark-2.3.1-bin-hadoop2.7
								     HADOOP_HOME = F:\hadoop-2.7.6\hadoop-2.7.6

6、复制F:\spark-2.3.1-bin-hadoop2.7\spark-2.3.1-bin-hadoop2.7\python\pyspark 到C:\Python36\Lib\site-packages中

7、将winutils.exe复制到F:\hadoop-2.7.6\hadoop-2.7.6\bin下

在linux 上运行第5章程序

运行命令: spark/bin/spark-submit sercret/spark-movieLens/movielens_als_recommendation.py sercret/spark-movieLens/ml-latest-small