“丝路通:推荐系统原理”的版本间的差异

来自CloudWiki
跳转至: 导航搜索
算法介绍
第12行: 第12行:
  
 
==算法介绍==
 
==算法介绍==
我们可以将标签内容进行提取,得到商品的内容特征向量,进而可以通过求取相似度矩阵。为了避免热门标签对特征提取的影响,我们还可以通过TF-IDF算法对标签的权重进行调整,从而尽可能地接近用户偏好。然后通过商品特征向量进而求出相似度矩阵,就可以在商品详情页给出相似推荐了,用户浏览商品完成之后,都会显示类似的推荐列表。
+
1.基于内容的相似推荐,用到提取商品标签中的关键词算法"TF-IDF算法",将商品标签tags当做文本或者文档,那商品标签中的每个单词,就可以看作是文本文档中的每一个词汇。
"词频"(TF)和"逆文档频率"(IDF)以后,将这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的几个词,就是这篇文章的关键词。这些关键词也就是是该商品的特征,我们对这些特征向量进行余弦相似度计算,最后才得到了商品之间的相似度列表
+
2.我们想要的得到的就是一个单词在商品标签tags中的关键程度是多少,这个关键程度就相当于商品在这个维度上的一个特征,所以,特征排在最前面的几个词,就是关键词。
 +
3.这些关键词也就是是该商品的特征,我们对这些特征向量进行余弦相似度计算,最后才得到了商品之间的相似度列表
 +
4.总的来说"词频"(TF)和"逆文档频率"(IDF),将这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。
 +
 
  
 
[[文件:TF-IDF流程图.png|600px]]
 
[[文件:TF-IDF流程图.png|600px]]

2020年12月3日 (四) 07:56的版本

功能介绍

1. 用户在前台收藏感兴趣的商品,

2.根据用户的收藏列表,为其推荐感兴趣的商品。

3.感兴趣的商品是通过基于物品的相似推荐实现的,通过提取商品的......等几个关键指标,计算商品之间的相似度。

4.推荐系统为用户推荐与他收藏商品相似度最高的商品

流程介绍

推荐部分的数据产生主要是通过前端埋点技术收集用户兴趣爱好日志,并传递给后台,后台再将日志存储到服务器上。服务器上的日志由flume日志采集系统实施采集,再由Kafka监控flume上的日志保存到kafka主题当中,最后利用编写的代码及算法实时计算Kafka主题中的数据并给出结果返回到业务数据库当中,后台读取业务数据库数据用于前端展示。

算法介绍

1.基于内容的相似推荐,用到提取商品标签中的关键词算法"TF-IDF算法",将商品标签tags当做文本或者文档,那商品标签中的每个单词,就可以看作是文本文档中的每一个词汇。 2.我们想要的得到的就是一个单词在商品标签tags中的关键程度是多少,这个关键程度就相当于商品在这个维度上的一个特征,所以,特征排在最前面的几个词,就是关键词。 3.这些关键词也就是是该商品的特征,我们对这些特征向量进行余弦相似度计算,最后才得到了商品之间的相似度列表 4.总的来说"词频"(TF)和"逆文档频率"(IDF),将这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。


TF-IDF流程图.png