Spark电影推荐
来自CloudWiki
目录
准备工作
图像分割实验
协同过滤实验
用户画像练习
使用Spark MLlib协同过滤算法基于用户评分推荐电影
第5章、第6章 数据集:http://files.grouplens.org/datasets/movielens/ml-latest-small.zip
放到程序目录中即可
第5章:movielens_als_recommendation.py
第6章: movielens_lda_recommendation.py
安装SPARK、Hadoop
1、安装JAVA1.8 cmd中 java -version查看java版本 2、下载并安装spark 2.3.1 https://www.apache.org/dyn/closer.lua/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz 环境变量 SPARK_HOME = F:\spark-2.3.1-bin-hadoop2.7 Path添加 %SPARK_HOME%/bin 3、下载并安装hadoop https://archive.apache.org/dist/hadoop/common/hadoop-2.7.6/ 环境变量 HADOOP_HOME = F:\hadoop-2.7.6\hadoop-2.7.6 Path添加 %HADOOP_HOME%/bin 4、pip install py4j 5、Pycharm => Run => Edit Configurations => Environment Variables => SPARK_HOME = F:\spark-2.3.1-bin-hadoop2.7 HADOOP_HOME = F:\hadoop-2.7.6\hadoop-2.7.6 6、复制F:\spark-2.3.1-bin-hadoop2.7\spark-2.3.1-bin-hadoop2.7\python\pyspark 到C:\Python36\Lib\site-packages中 7、将winutils.exe复制到F:\hadoop-2.7.6\hadoop-2.7.6\bin下
在linux 上运行第5章程序
运行命令: spark/bin/spark-submit sercret/spark-movieLens/movielens_als_recommendation.py sercret/spark-movieLens/ml-latest-small