查看“丝路通:推荐系统原理”的源代码
←
丝路通:推荐系统原理
跳转至:
导航
,
搜索
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
==功能介绍== 1. 用户在前台收藏感兴趣的商品, 2.根据用户的收藏列表,为其推荐感兴趣的商品。 3.感兴趣的商品是通过基于物品的相似推荐实现的,通过提取商品的......等几个关键指标,计算商品之间的相似度。 4.推荐系统为用户推荐与他收藏商品相似度最高的商品。 ==流程介绍== 推荐部分的数据产生是利用spark程序提取到HDFS中的商品数据后再利用基于内容相似推荐算法计算出两两商品之间的相似度,保存到业务数据库中,最后在前端给予展示 数据爬取 数据清洗 数据存储 相似度计算 上传业务数据库 前端展示 ==算法介绍== 1.基于内容的相似推荐,用到提取商品标签中的关键词算法"TF-IDF算法",将商品标签tags当做文本或者文档,那商品标签中的每个单词,就可以看作是文本文档中的每一个词汇。 2.我们想要的得到的就是一个单词在商品标签tags中的关键程度是多少,这个关键程度就相当于商品在这个维度上的一个特征。 3.我们对这些特征向量进行余弦相似度计算,最后才得到了商品之间的相似度列表 4.总的来说"词频"(TF)和"逆文档频率"(IDF),将这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的几个词,就是这篇文章或者说我们商品标签中的关键词。 [[文件:TF-IDF流程图.png|600px]]
返回至
丝路通:推荐系统原理
。
导航菜单
个人工具
登录
命名空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
帮助
工具
链入页面
相关更改
特殊页面
页面信息