“Spark电影推荐”的版本间的差异
来自CloudWiki
(创建页面,内容为“==准备工作== 导入项目到PyCharm File -> Open 配置编译环境 File ->Setting -> Project code -> Project Interpreter ,右边的齿轮 -> ADD C:\Users…”) |
|||
第18行: | 第18行: | ||
==协同过滤实验== | ==协同过滤实验== | ||
+ | |||
+ | ==用户画像练习== | ||
+ | |||
+ | |||
+ | === 从京东那里爬取商品评论 === | ||
+ | |||
+ | |||
+ | www.bejson.com | ||
+ | |||
+ | |||
+ | === 对评论进行中文分词、去停用词 === | ||
+ | |||
+ | |||
+ | |||
+ | === 计算TF-IDF词频并应用K-均值聚类算法 === | ||
+ | TF-IDF的全称是Term Frequency-Inverse Document Frequency,翻译过来就是“词频-逆文本频率”。TF容易理解,即一个文本中各个词出现的频率统计。IDF反映了一个词在所有文本中出现的频率,能够反映词语的重要性,举个例子来说明IDF,有如下语料: | ||
+ | |||
+ | <nowiki>corpus=["I come to China to travel", | ||
+ | "This is a car polupar in China", | ||
+ | "I love tea and Apple ", | ||
+ | "The work is to write some papers in science"]</nowiki> | ||
+ | |||
+ | 上面的4个文本中几乎都出现了to、is、and,词频虽然高,但是重要性却没有China、Apple高。所以,若一个词出现在很多文本中,它的IDF值应当低,若一个词出现在比较少的文本中,它的IDF应当高。最后的TF-IDF值等于TF与IDF相乘。总的来说,TF-IDF就是从两个方面对文本中的词进行加权:①词在当前文本中出现的次数;②总文本数包含词的数目。 | ||
+ | |||
+ | 具体实现方法:为每一行建立一个10000个元素的数组,以统计每个词出现的次数 | ||
+ | |||
+ | === |
2018年7月28日 (六) 03:37的版本
目录
准备工作
导入项目到PyCharm
File -> Open
配置编译环境
File ->Setting -> Project code -> Project Interpreter ,右边的齿轮 -> ADD C:\Users\Administrator\AppData\Local\Programs\Python\Python36\python.exe
安装程序所需的包
在程序源文件中右击空白处 -> Run 查看错误提示,看看缺少什么包 File ->Setting -> Project code -> Project Interpreter -> Package List 右边的+号,缺少什么包就安装什么包
图像分割实验
协同过滤实验
用户画像练习
从京东那里爬取商品评论
www.bejson.com
对评论进行中文分词、去停用词
计算TF-IDF词频并应用K-均值聚类算法
TF-IDF的全称是Term Frequency-Inverse Document Frequency,翻译过来就是“词频-逆文本频率”。TF容易理解,即一个文本中各个词出现的频率统计。IDF反映了一个词在所有文本中出现的频率,能够反映词语的重要性,举个例子来说明IDF,有如下语料:
corpus=["I come to China to travel", "This is a car polupar in China", "I love tea and Apple ", "The work is to write some papers in science"]
上面的4个文本中几乎都出现了to、is、and,词频虽然高,但是重要性却没有China、Apple高。所以,若一个词出现在很多文本中,它的IDF值应当低,若一个词出现在比较少的文本中,它的IDF应当高。最后的TF-IDF值等于TF与IDF相乘。总的来说,TF-IDF就是从两个方面对文本中的词进行加权:①词在当前文本中出现的次数;②总文本数包含词的数目。
具体实现方法:为每一行建立一个10000个元素的数组,以统计每个词出现的次数