“丝路通:推荐系统原理”的版本间的差异

来自CloudWiki
跳转至: 导航搜索
算法介绍
流程介绍
第9行: 第9行:
  
 
==流程介绍==
 
==流程介绍==
推荐部分的数据产生主要是通过前端埋点技术收集用户兴趣爱好日志,并传递给后台,后台再将日志存储到服务器上。服务器上的日志由flume日志采集系统实施采集,再由Kafka监控flume上的日志保存到kafka主题当中,最后利用编写的代码及算法实时计算Kafka主题中的数据并给出结果返回到业务数据库当中,后台读取业务数据库数据用于前端展示。
+
推荐部分的数据产生是利用spark程序提取到HDFS中的商品数据后再利用基于内容相似推荐算法计算出两两商品之间的相似度,保存到业务数据库中,最后在前端给予展示
  
 
==算法介绍==
 
==算法介绍==

2020年12月5日 (六) 07:55的版本

功能介绍

1. 用户在前台收藏感兴趣的商品,

2.根据用户的收藏列表,为其推荐感兴趣的商品。

3.感兴趣的商品是通过基于物品的相似推荐实现的,通过提取商品的......等几个关键指标,计算商品之间的相似度。

4.推荐系统为用户推荐与他收藏商品相似度最高的商品

流程介绍

推荐部分的数据产生是利用spark程序提取到HDFS中的商品数据后再利用基于内容相似推荐算法计算出两两商品之间的相似度,保存到业务数据库中,最后在前端给予展示

算法介绍

1.基于内容的相似推荐,用到提取商品标签中的关键词算法"TF-IDF算法",将商品标签tags当做文本或者文档,那商品标签中的每个单词,就可以看作是文本文档中的每一个词汇。

2.我们想要的得到的就是一个单词在商品标签tags中的关键程度是多少,这个关键程度就相当于商品在这个维度上的一个特征。

3.我们对这些特征向量进行余弦相似度计算,最后才得到了商品之间的相似度列表

4.总的来说"词频"(TF)和"逆文档频率"(IDF),将这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的几个词,就是这篇文章或者说我们商品标签中的关键词。


TF-IDF流程图.png