“Spark电影推荐”的版本间的差异
来自CloudWiki
(→用户画像练习) |
|||
第22行: | 第22行: | ||
==用户画像练习== | ==用户画像练习== | ||
− | + | *[[用户画像练习]] | |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
==使用Spark MLlib协同过滤算法基于用户评分推荐电影== | ==使用Spark MLlib协同过滤算法基于用户评分推荐电影== |
2018年7月28日 (六) 14:42的版本
目录
准备工作
导入项目到PyCharm
File -> Open
配置编译环境
File ->Setting -> Project code -> Project Interpreter ,右边的齿轮 -> ADD C:\Users\Administrator\AppData\Local\Programs\Python\Python36\python.exe
安装程序所需的包
在程序源文件中右击空白处 -> Run 查看错误提示,看看缺少什么包 File ->Setting -> Project code -> Project Interpreter -> Package List 右边的+号,缺少什么包就安装什么包
图像分割实验
协同过滤实验
用户画像练习
使用Spark MLlib协同过滤算法基于用户评分推荐电影
第5章、第6章 数据集:http://files.grouplens.org/datasets/movielens/ml-latest-small.zip
放到程序目录中即可
第5章:movielens_als_recommendation.py
第6章: movielens_lda_recommendation.py
安装SPARK、Hadoop
1、安装JAVA1.8 cmd中 java -version查看java版本 2、下载并安装spark 2.3.1 https://www.apache.org/dyn/closer.lua/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz 环境变量 SPARK_HOME = F:\spark-2.3.1-bin-hadoop2.7 Path添加 %SPARK_HOME%/bin 3、下载并安装hadoop https://archive.apache.org/dist/hadoop/common/hadoop-2.7.6/ 环境变量 HADOOP_HOME = F:\hadoop-2.7.6\hadoop-2.7.6 Path添加 %HADOOP_HOME%/bin 4、pip install py4j 5、Pycharm => Run => Edit Configurations => Environment Variables => SPARK_HOME = F:\spark-2.3.1-bin-hadoop2.7 HADOOP_HOME = F:\hadoop-2.7.6\hadoop-2.7.6 6、复制F:\spark-2.3.1-bin-hadoop2.7\spark-2.3.1-bin-hadoop2.7\python\pyspark 到C:\Python36\Lib\site-packages中 7、将winutils.exe复制到F:\hadoop-2.7.6\hadoop-2.7.6\bin下
在linux 上运行第5章程序
运行命令: spark/bin/spark-submit sercret/spark-movieLens/movielens_als_recommendation.py sercret/spark-movieLens/ml-latest-small